Anda di halaman 1dari 11

Menggunakan Data Science

Untuk Mengembangkan Bisnis


bagi Data Scientist
Di abad 21 ini Data Science merupakan ilmu yang banyak diminati oleh banyak pakar
untuk mengembangkan perusahaan. Ilmu Data Science muncul bersamaan dengan
pertumbuhan Big Data. Saat ini, perusahaan membutuhkan seorang dengan
kempuan analisis data, rasa keingintahuan yang besar, mampu menerjemahkan data
menjadi informasi dari data yang tersebar dikumpulkan dan ditampilkan dalam grafik
maupun diagram untuk menguntungkan perusahaan.

Siapapun dapat menjadi data scientist karena ilmu data science tidak mengenal
background pendidikan dan era transformasi digital saat ini seorang data scientist
dibutuhkan dalam semua bisnis. di Indonesia sendiri banyak perusahaan dan startup
menjadikan data scientist sebuah jabatan yang penting dalam manajemennya.
Analisa seorang data scientist akan mempengaruhi keputusan usaha dan bisnis.
dengan banyaknya kebutuhan data science, profesi data scientist sangat menarik
untuk dipelajari dan dikembangkan. selain itu, prospek penghasilan untuk seorang
data scientist yang sangat baik membuat data science semakin diincar.

1. Pengenalan Data Science dan Aktivitas Data Scientists

Data Science merupakan mengolah data dengan ilmu multidisiplin untuk


mendapatkan insight atau memodelkan masalah yang digunakan untuk kebutuhan
tertentu. Data Science itu Multidisciplinary, maksudnya dalam mengolah data, data
science mengkombinasikan kemampuan analisis data, matematika, statistika,
probabilitas, koding / programming, dan pengetahuan bisnis. Seringkali tidak ada
satu orang yang memiliki semua keahlian di atas, sehingga data science merupakan
kerjasama tim antara Data Scientist, Software Engineer, dan Domain Expert.

Data science merupakan kegiatan mendapatkan pengetahuan dari data, dengan cara
menghilangkan noise dari data yang tidak relevan, dan menemukan pola dari data.

1
Kegiatan Data science juga untuk mengembangkan model data tersebut untuk
digunakan dalam keperluan bisnis. Misalnya, dengan mengembangkan model data
pembelian, kita dapat memprediksi pembelian bulan depan sehingga bisa
mempersiapkan supply untuk memenuhi demand.
Penggunaan data science dalam bisnis meliputi:
a. Forecasting, menebak apa yang akan terjadi
b. Optimization, menghasilkan yang terbaik dari yang ada
c. Recommendation, menyarankan yang terbaik
d. Natural Language Proses, memproses bahasa manusia
e. Experimentation, AB Test/ eksperimen, memilih yang terbaik
f. Anomali Detection, menemukan yang tidak biasa
g. Chatbot, DLL

2. Kemampuan/Skill dalam Data Science


Dalam data science terdapat 3 kemampuan utama yang harus dimiliki yaitu:
a. Matematika, Statistik, dan Probabilitas
Dengan mengerti matematika, kita bisa tau karakter dari model yang kita gunakan
beserta asumsinya untuk bisa melakukan tuning dengan baik.
b. Programming
Kemampuan dasar coding sudah cukup untuk awal seperti:
1) Variable, if else, loop.
2) Struktur data seperti Array dan Hash,
3) Function.
Coding direkomendasikan untuk menggunakan bahasa pemograman Phyton.
c. Business Knowledge
Disebut juga domain expertise
1) Business model
2) Business Process
3) Business Glossary
4) Business Context, e.g Challenger, Competition
Dengan mengeri bisnis secara mendalam, kita bisa memberikan solusi yang
terbaik untuk mencapai objektif bisnis.

2
3. Berkarir di Bidang Data Science
Sebuah tim data science tidak hanya berisi data scientist saja, tapi juga ada business
expert, data engineer, dan ML engineer. Seorang data scientist Mengumpulkan data
dari berbagai sumber, membersihkan data, menyediakannya dalam format yang
mudah digunakan (data lake, data warehouse, atau data mart). Data scientist
membutuhkan pengetahuan di bidang matematika dan statistik, dasar programming,
dan domain bisnis.

Contoh modeling yang dilakukan data scientist :

3
4. Mementukan Objektif Bisnis Untuk Proyek Data Science
A. Memahami Bisnis Perusahaan
Dalam memahami bisnis perusahan yang disebut juga domain expertise, seorang
data scientist harus memahami:
a. Business Model
b. Business Process
c. Business Glossary
d. Business context, e.g challengers, competition
Setiap organisasi biasanya memiliki tujuan, seringkali diukur setiap quarter atau
setiap tahun. Dalam beberapa organisasi, istilahnya berbeda tapi pada dasarnya
sama; KPI (key performance indicator), OKR (objective-key result), target, dan lain-
lain. Ketika kita hendak memulai proyek data science, perlu kita pahami kita bekerja
dengan divisi mana dan apa objektif divisi tersebut saat ini.
B. SMART Framework
a. Specific: Jelas apa yang masuk scope, apa yang tidak.
b. Measurable: Bisa dihitung, tangible, jelas apakah achieved atau tidak.
c. Attainable: Realistis, tidak mengawang-awang
d. Relevant: Sesuai dengan OKR divisi dan perusahaan secara keseluruhan.
e. Time-bound: Ada deadline yang jelas.
Langkah berikutnya, kita perlu menerjemahkan objektif bisnis menjadi metriks
model. Metriks model adalah bagaimana kita akan mengukur model yang dibuat
sudah baik atau belum. Memahami bisnis membantu proyek Data Science untuk
tepat sasaran dan tepat guna.

5. Pemahaman data
A. Berkenalan dengan google colab
Google Colab merupakan interactive editor code yang bisa ditulis, dieksekusi dan
dibagi dengan google drive. Google colab bisa dipandang sebagai jupyter notebook
yang disimpan di google drive. Notebook document terdiri dari berbagai cells,
dimana setiap cells bisa mengandung kode, teks, gambar dan lain-lain.

4
Bisa di akses pada : https://colab.research.google.com/
Terdapat beberapa keuntungngan menggunakan Google Colab antara lain:
a. Tidak perlu instalasi dan configurasi
b. Gratis pemakaian, termasuk ke penggunaan GPU
c. Mudah berbagi akses
B. Menentukan data awal untuk analisis data
a. Langkah awal memahami data:
1. Penentuan data awal
2. Melihat deskripsi dan isi data
b. Penentuan data awal: Mengumpulkan data yang diperlukan sesuai dengan
masalah bisnis yang ingin diselesaikan
1. Kriteria dalam menentukan data
 Data yang relevan
 Data yang up-to-date
2. Sumber data yang dapat dipakai
 Internal database
 Data Survey
 Data eksternal yang didapat dengan API atau crawling
3. Melihat isi dan deskripsi data: Membiasakan diri dengan data dan
Memahami konten pada data.
4. Data yang sudah terkumpul umumnya berbentuk seperti sebuah tabel,
dimana setiap baris merepresentasikan sebuah observasi dan setiap
kolomnya merepresentasikan atribut / variabel.
5. Tipe-tipe variabel pada data

5
 Numerik (Kuantitatif).
 Kontinu: contoh data tinggi badan, data nilai mata pelajaran
 Kontinu: contoh data tinggi badan, data nilai mata pelajaran
 Categorik (Kualitatif)
 Ordinal: contoh: data jenjang pendidikan (SD, SMP, SMA)
 Nominal: contoh: jenis kelamin, kota tempat tinggal
6. Menggunakan pandas untuk mengolah data
C. Menggunakan pandas untuk mengolah data
Pandas merupakan pustaka (library) di python yang dirancang untuk keperluan
analisis data
a. Jenis-jenis struktur data di pandas
 Series: vektor 1 dimensi yang mempunyai tepat 1 jenis tipe data
 dataframe merepresentasikan struktur data tabular yang berisikan
kumpulan kolom/ series, yang masing-masing bisa memiliki tipe data
yang berbeda (numerik, string, boolean, object)
D. Memvalidasi data
Validasi data merupakan hal yang penting sebelum melakukan analisis terhadap data.
hal ini dilakukan untuk menjamin bahwa kualitas data yang digunakan itu sudah valid
dan akurat
a. Beberapa Verifikasi yang diperlukan
 Pengecekan nilai atribut yang kosong / tidak ada
 Pengecekan kesalahan penentuan tipe data
 Pengecekan nilai atribut yang tidak konsisten
b. Jika ditemukan atribut yang tidak valid, akan dilakukan proses pembersihan
data sedemikian rupa sehingga data tersebut menjadi valid
c. Proses teknik pembersihan data ini akan dijelaskan di pembahasan
selanjutnya
E. Karakteristik data berdasarkan statistika deskriptif
Statistika deskriptif merupakan metode untuk mengumpulkan, menggolongkan dan
menganalisis data yang untuk mendapatkan informasi karakteristik pada data.
Dalam statistika deskriptif, umumnya ada 2 jenis ukuran yang perlu dilihat:
a. Ukuran pemusatan data: ukuran yang merangkum posisi “sentral” pada data

6
 Rata-rata (mean),
 modus,
 nilai tengah (median)
b. Ukuran penyebaran data:ukuran yang merangkum variabilitas pada data
 Jarak (range)
 Ragam (variance)
 Standar deviasi
 quartil
F. Karakteristik data dengan visualisasi
Visualisasi data merupakan representasi secara grafik dari informasi dan data.
Dengan visualisasi, kita dapat melihat dan memahami tren, outlier ataupun pola
dalam data. Berikut Dengan visualisasi, kita dapat melihat dan memahami tren,
outlier ataupun pola dalam data seperti:
a. Table
b. Histogram plot
c. Scatter plot
d. Bar chart
e. Line plot
G. Menggunakan matplotlib dan seaborn untuk visualisasi data
a. Matplotlib merupakan pustaka (library) di python untuk membuat visualisasi
statis, animasi dan interaktid dengan python.
b. Seaborn merupakan pustaka visualisasi python yang berdasarkan matplotlib.
Seaborn menyediakan high-level interface untuk menggambar grafik dan
terintegrasi dengan pandas
H. Menentukan hubungan antar variabel dengan korelasi
Korelasi menjelaskan bagaimana hubungan antara dua buah variabel pada data.
Korelasi dapat merangkum pola tren pada dua variabel: positif atau negatif. Cara
melihat kemungkinan adanya korelasi bisa menggunakan scatter plot.
a. Koefisien Korelasi
 Suatu nilai di antara interval -1 sampai 1, yang menjelaskan Arah dari
sebuah tren
 Nilai Keeratan hubungan dua variabel secara linear

7
 Salah satu perhitungannya dengan korelasi pearson

6. Data Preparation
A. Membersihkan data
Membersihkan data merupakan tahap yang penting sebelum melakukan tahap
processing. Pentingnya membersihkan data karena data hampir tidak sepenuhnya
bersih dan ada indikasi pada data yang perlu diperbaiki, mendiagnosis data untuk
memperbaiki kekurangan data dan menyiapkan data untuk analisis. Dimana adanya
data yang sudah bersih, semakin mudah dan akurat untuk dianalisis.
a. Cara membersihkan data
 Membuang data duplikat
 Imputasi data kosong
 Membuat value yang konsisten pada attribut kategorik
 Membuang outlier (jika diperlukan)
B. Melakukan transformasi data untuk fitur numerik
Dalam membentuk sebuah model diperlukan kreativitas tertentu untuk mebuat
variabel baru yang bertujuan untuk meningkatkan akurasi dari model. Terdapat
empat teknik transformasi data untuk fitur numerik antara lain
a. Scaling Data
b. Standarisasi data
c. Normalisasi data
d. Transformasi dengan fungsi matematika
C. Melakukan transformasi data untuk fitur kategorik
Pada umumnya metode machine learning mengharuskan variabel input dan target
berupa numerik. Variabel kategorik perlu ditransformasi ke numerik agar bisa
dipakai untuk membentuk model. Terdapat dua teknik transformasi data untuk fitur
kategorik yaitu:
a. Label Encoding
b. One Hot Encoding

8
D. Cara melakukan seleksi fitur
Seleksi fitur merupakan proses mengurangi jumlah fitur dengan memilih fitur-fitur
pada data yang berkontribusi paling besar terhadap variabel target. Mengapa perlu
dilakukan? Umumnya, tidak semua fitur yang ada pada data diperlukan untuk
membangun sebuah model dan sebagian Fitur mungkin tidak begitu mempunyai
kontribusi yang kuat pada variabel target. Keuntungan melakukan seleksi fitur yaitu
mengurangi overfitting, meningkatkan akurasi, dan mengurangi waktu dalam
training model. Terdapat dua teknik umum seleksi fitur sebagai berikut:
a. Univariate Selection
b. Recursive Feature Elimination

7. Model dan Algoritma Data Science


A. Machine Learning
Machine learning adalah salah satu bidang ilmu yang perlu dipelajari data scientist
dalam melaksanakan tanggung jawabnya sehari-hari. Secara umum, machine
learning adalah cabang ilmu pemrograman komputer dimana komputer dibuat
supaya mereka dapat belajar dari input data (Aurelien Geron, xxx).
B. Supervised Learning
Machine learning tipe supervised adalah machine learning yang menggunakan data
fitur dan data label untuk melatih model matematika. Dalam bentuk yang paling
sederhana, misalkan data fitur diwakili oleh vektor x dan data label diwakili oleh
vektor y, kita ingin menemukan koefisien a dari persamaan ini y = a*x. Hasil akhir
yang diharapkan adalah suatu model matematika yang dapat memberikan prediksi
label yang akurat ketika dihadapkan dengan data fitur baru. Ada dua pendekatan
utama supervised learning yaitu:
a. Klasifikasi (classification)
b. Regresi (regression)
C. Unsupervised Learning
Machine learning tipe unsupervised adalah machine learning yang menggunakan
data fitur tanpa label. Ada beragam pendekatan yang digunakan diantaranya:
a. Clustering,

9
b. Anomaly detection
c. Dimensionality reduction
d. Association rule learning
D. Evaluasi Model
Di bagian sebelumnya kita telah membahas bagaimana data digunakan untuk
melatih model machine learning. Untuk supervised learning, model yang cukup baik
berarti bahwa data label yang dihasilkan dari latihan model mendekati label aktual.
Untuk unsupervised learning, model yang cukup baik berarti bahwa data fitur
digunakan untuk merepresentasikan informasi secara optimal.
E. Skenario Pengujian
Saat melatih model machine learning, tidak dianjurkan untuk menggunakan semua
data sekaligus. Model yang sudah dilatih harus cukup fleksibel dalam menghadapi
data fitur yang belum pernah dihadapi. Dengan demikian, tidak akan didapati
perbedaan evaluasi model yang berarti antara saat latihan dan saat pengujian di
dunia nyata.

8. Akhiran Proyek Data Science


A. Presentasi Solusi Akhir
Presentasi akhir maksudnya menjelaskan keseluruhan proyek beserta hasil
evaluasinya kepada stakeholder. Biasanya presentasi akhir ini untuk diskusi terkait
model dan mendapatkan persetujuan rilis model ke produksi. Beberapa tips dalam
menyusun presentasi data science sebagi berikut:
a. Gunakan bahasa yang tidak teknis dan mudah dimengerti.
b. Tidak semua detail teknis perlu disampaikan.
c. Jangan menyajikan banyak angka tanpa menjelaskan apa artinya.
d. Jelaskan impact-nya kepada bisnis.
e. Jika ada opsi alternatif model, jelaskan mana yang direkomendasikan.
f. Komunikasikan semua asumsi.
g. Ulangi detail yang kompleks dan penting dengan paraphrasing.
h. Minta feedback kepada stakeholder.

10
Setelah mendapatkan persetujuan dari pihak-pihak terkait, model dapat dirilis ke
lingkungan production. Artinya, siap digunakan oleh penggunanya. Tapi ada
beberapa hal yang perlu dibicarakan dengan stakeholder:
a) Rollback Condition, Sebelum melakukan rilis, perlu disepakati apakah ada
kondisi yang tidak dapat diterima yang membuat model ini perlu ditarik
kembali (rollback).
b) Release Strategy, Dalam release strategy, ada beberapa opsi: Big Bang,
langsung 100%, Bertahap, misal 10% user dahulu & monitor, AB Test
treatment & control misal 50:50
B. Rilis dan Monitor Data Science Model
Hal pertama yang harus dilakukan adalah implement system. Sebelum rilis model
sebaiknya membangun sebuah sistem yang sesuai dengan kebutuhan. Dalam aspek
ini software engineering best practice dibutuhkan. Selanjutnya Release Strategy
dengan beberapa opsi seperti Big Bang langsung 100%, bertahap misal 10% user
dahulu & monitor, atau AB Test ada treatment & control misal 50:50. Tahapan
terakhir adalah monitoring after release. Setelah rilis, model tetap perlu dimonitor
dari waktu ke waktu. Hal ini karena mungkin terjadi “data drifting” atau pergeseran
data.
C. Retrospektif Proyek
Retrospektif adalah sebuah langkah untuk melihat kembali keseluruhan proyek. Apa
yang bisa diperbaiki, apa yang sudah berjalan dengan baik, apa yang sebaiknya tidak
diulangi lagi.

11

Anda mungkin juga menyukai