Anda di halaman 1dari 9

Build the Skills You Need to be a

MODERN DATA SCIENTIST


For IT & Business UsersTable of Content
Table of
Content............................................................................
.................. 1
About
DQLab..............................................................................
...................... 2
Key
Features...........................................................................
......................... 3
DQLab Learning
Course.............................................................................
..... 4
R Fundamental for Data
Science................................................................... 6
Data Science in Retail: Market Basket
Analysis........................................... 7
Data Science in Marketing: Customer Segmentation..................................
8
Data Science in Finance: Credit Risk
Prediction.......................................... 9
Data Visualization in Data Science using
R.................................................. 10
Statistics using R for Data
Science............................................................... 11
Data Preparation in Data Science using
R.................................................... 12
Data Exploration in Data Science using
R.................................................... 13
Data Science in Finance: Dimension
Reduction.......................................... 14
Project Machine Learning for Retail with R: Product Packaging................. 15
1About DQLab Program
Sebagai seorang Data Scientist, Anda dituntut bisa bekerja dengan berbagai
format data, memiliki pengetahuan tentang algoritma, memahami teknik
pengolahan, dan manajemen data yang disesuaikan dengan kasus bisnis.
Program DQLab memberikan learning journey practical menjawab
kebutuhan Industri dengan memanfaatkan rangkaian ilmu statistik,
pemrograman, dan bisnis yang dapat secara langsung diterapkan secara
aplikatif berbasis project.
Cocok bagi pemula (programmer & non-programmer) yang ingin
menerapkan teknik Data Science untuk menghasilkan insight bisnis atau
sedang mengejar karir dibidang ini.

2DQLab Online Data Science Program trains you
along an industry recommended learning
path to succeed in the field of applied Data Science
Key Features
Industry recommended learning path Hands on project execution in DQLab Platform
(Say goodbye to complicated installations)
Certified upon modules & project completion Work on real case scenario projects in
various
retail, distribution, finance, and media Industries

Technical, project, programming support by data & industry experts
3DQLab Learning Module
R Course
R Fundamental for Data Science
Pelajari langkah dasar untuk memulai R , bahasa yang sangat populer di data
science - mulai dari operasi matematika sampai visualisasi data.
Data Science in Retail: Market Basket Analysis
Pelajari algoritma machine learning untuk kasus bisnis retail, yaitu Market Basket
Analysis dimana seorang data scientist akan mencari hubungan antar produk yang
kuat berdasarkan data transaksi belanja.
Data Science in Marketing: Customer Segmentation
Pelajari teknik analisa yang membagi data-data customer menjadi beberapa
segmen yang bermanfaat bagi bisnis di marketing dan CRM.
Data Science Finance: Credit Risk Prediction
Pelajari penggunaan algoritma decision tree untuk pembuatan dan operasional
model prediksi resiko kredit (credit risk) di R.
Data Visualization in Data Science using R
Kuasai keterampilan membuat komposisi grafik visualisasi data dasar yang
informatif dan menarik dengan menggunakan package ggplot2 di R.
Statistics using R for Data Science
Dasar-dasar ilmu statistik untuk memulai perjalanan data science dengan
menggunakan R.
4Data Preparation in Data Science using R
Kuasai keterampilan data preparation atau data wrangling ini langkah demi langkah
- dengan fokus pada transformasi struktur dari file dataset kependudukan
DKI Jakarta.
Data Exploration in Data Science using R
Bagian dua dari data wrangling mempelajari bagaimana melakukan data profiling,
data cleansing, data enrichment dengan dataset pelanggan dari file Excel dan
database MySQL.
Data Science in Finance: Dimension Reduction
Pelajari metode Principal Component Analysis untuk mereduksi dimensi (feature
extraction) dalam data berdimensi tinggi. Dalam modul ini PCA diterapkan untuk
data credit rating.
Project List
Project Machine Learning for Retail with R: Product Packaging
Pelajari Python - bahasa pemograman terpopuler di dunia saat ini, dengan cara
simpel, praktis dan mengasyikkan. Tujuan course dasar ini agar Anda bisa
mengenal dan mulai menggunakan Python di kegiatan sehari-hari.
Churn Analysis
5Data Preparation and Wrangling with R (Part 2)
R Fundamental for Data Science
Data science adalah ilmu yang popularitas dan kebutuhannya semakin tinggi. Ilmu ini
merupakan
gabungan dari ilmu statistik, bisnis, dan computer science. Data scientist adalah
nama profesi untuk
orang yang bekerja dengan ilmu data science. Ada dua bahasa pemrograman yang ikut
terangkat
popularitasnya karena banyak digunakan dan dikembangkan oleh para data scientist,
yaitu R dan
Python – keduanya bersifat gratis dan open source.
R adalah software dan bahasa pemrograman yang fokus ke pengolahan data terutama
proses analisa
data. Yang membuat R populer adalah fiturnya yang sangat kaya – dimana saat ini
terdapat lebih dari
13 ribu package, dari membaca file teks, database sampai penggunaan machine
learning untuk
analisa otomatis.
Bagi Anda yang sering menggunakan Excel, mungkin R bisa disamakan dengan pasangan
Excel dan
VBA (Visual Basic for Application) - yang kombinasinya membuat Excel menjadi
powerful.
Course "R Fundamental for Data Science" ini adalah course yang diperuntukkan bagi
Anda memulai
perjalanan mempelajari R. Dengan menyelesaikan course ini, Anda akan lebih mudah
melanjutkan ke
topik penting selanjutnya.
Learning Outcome
Setelah menyelesaikan course ini, peserta akan mendapatkan pengetahuan dan
keterampilan
fundamental R sebagai berikut:
1. Mengerti hal-hal dasar di R seperti menggunakan dan menampilkan angka, teks, dan
perhitungan
matematika dasar.
2. Mampu menggunakan variable untuk menyimpan nilai.
3. Mengerti penggunaan komentar (comment) untuk menghasilkan human readable code.
4. Mengerti sifat R yang case sensitive – huruf besar dan huruf kecil merupakan hal
yang berbeda.
5. Mengerti penggunaan tipe data logika TRUE / FALSE.
6. Memahami contoh error.
7. Memahami apa dan bagaimana menggunakan package.
8. Mengerti bagaimana membaca file Excel.
9. Mampu menghasilkan grafik bar chart dan pie chart dengan data yang dibaca dari
file Excel.
Churn Analysis
Dengan menyelesaikan course ini, Anda akan lebih mudah melanjutkan ke topik penting
selanjutnya
seperti Data Science in Retail dan Visualization Data in Data Science using R.
6Data Science in Retail:
Market Basket Analysis
Anda mungkin sering mendengar mengenai bagaimana bisnis berkembang dan maju pesat
berkat
inovasi teknologi? Di bisnis ritel, salah satu inovasi teknologi adalah analisa
otomatis terhadap ribuan
sampai jutaan data transaksi untuk mendapatkan kombinasi produk yang sering dibeli
bersamaan.
Dari berbagai studi kasus, informasi kombinasi ini dapat digunakan untuk
meningkatkan penjualan
18% sampai dengan 60%. Peningkatan ini diperoleh dengan cara:
1. Membuat paket menarik untuk ditawarkan kepada konsumen.
2. Memberikan rekomendasi produk secara proaktif.
3. Menyusun posisi produk pada rak toko dimana kemungkinan untuk dibeli lebih
besar.
4. Menyusun halaman produk e-commerce dengan kombinasi tersebut ditampilkan
bersama.
Selain efektif untuk meningkatkan penjualan, informasi ini sekaligus bisa digunakan
untuk
memecahkan masalah stok. Kenapa bisa? Karena apabila stok yang sebelumnya menumpuk,
kini
dapat dicari pasangan produk yang tepat untuk dipaketkan bersama.
Proses analisa ini dikenal sebagai Market Basket Analysis (MBA). Dan di dunia data
science,
algoritma yang populer untuk mendukung proses ini adalah Apriori.
Course ini akan mempelajari bagaimana menerapkan MBA melalui algoritma Apriori
dengan
menggunakan R.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu menyusun model rekomendasi produk
yang
berdampak pada peningkatan penjualan dan mengurangi masalah inventory di bidang
ritel – dengan
detail pengetahuan dan keterampilan sebagai berikut:
1. Memahami penggunaan Market Basket Analysis (MBA) di dunia ritel.
2. Memahami dan mampu mempersiapkan data yang diperlukan.
3. Memahami konsep fundamental item, itemset, frequent itemset dan association
rules.
4. Memahami dan mampu menggunakan algoritma Apriori untuk menghasilkan model
association
rules dengan R.
5. Mampu menghasilkan daftar kombinasi produk yang memiliki asosiasi kuat
berdasarkan nilai
support, confidence dan lift.
6. Mampu mengoperasionalkan model sehari-hari untuk menghasilkan rekomendasi produk
kepada
customer.
7
1Data Science in Marketing:
Customer Segmentation
Seluruh bisnis atau badan usaha – baik itu bisnis kecil, menengah maupun besar –
pasti memiliki
customer atau pelanggan.
Kadangkala pelanggan itu karakternya spesifik, misalkan wanita dewasa (berumur di
atas 17 tahun).
Namun sebenarnya karakteristik itu bisa dibagi lagi lebih detail berdasarkan
profesi, misalkan ibu
rumah tangga dan wanita karir. Dan itu masih dibagi lagi lebih detail berdasarkan
total pembelanjaan
selama setahun, provinsi tempat tinggal, dan lain-lain.
Semakin kita mengenali karakteristik pelanggan kita, maka akan semakin mudah kita
melakukan
inovasi produk dengan kebutuhan karakter tersebut dan melakukan komunikasi
pemasaran.
Proses pembagian karakteristik pelanggan ini disebut dengan segmentasi pelanggan
atau customer
segmentation. Jika proses ini dilakukan terhadap data customer yang kita miliki
secara manual, akan
sulit dan memakan waktu jika dilakukan secara manual – terutama dengan jumlah dan
variasi data
yang besar.
Beruntung saat ini sudah banyak proses otomatisasi untuk melakukan customer
segmentation
menggunakan berbagai algoritma machine learning. Dua diantaranya adalah k-means dan
k-modes.
Course "Data Science in Marketing: Customer Segmentation" ini akan berfokus pada
pemahaman dan
penggunaan kedua algoritma tersebut dengan pendekatan praktek menggunakan bahasa
pemrograman R.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu menyusun model k-means dan k-modes
untuk
menghasilkan customer segmentation menggunakan R – dengan detail pengetahuan dan
keterampilan sebagai berikut:
1. Memahami apa itu customer segmentation dalam penggunaannya di dunia bisnis.
2. Mampu membaca dan mempersiapkan data profil pelanggan.
3. Mampu menghasilkan model customer segmentation dengan algoritma k-means dan k-
modes.
4. Mengoperasionalkan model sehingga dapat digunakan sehari-hari oleh bisnis.
8Data Science in Finance:
Credit Risk Prediction
Credit risk adalah risiko yang harus ditanggung oleh sebuah bank atau lembaga
pembiayaan lain
ketika memberikan pinjaman ke seorang individu atau lembaga lain.
Risiko ini berupa tidak bisa dibayarkannya pokok dan bunga pinjaman, sehingga
mengakibatkan
kerugian berikut:
1. Gangguan aliran kas (cash flow) sehingga modal kerja terganggu.
2. Meningkatkan biaya operasional untuk mengejar pembayaran tersebut (collection).
Untuk memperkecil risiko kredit ini, biasanya dilakukan proses penilaian risiko
sebelum diberikan
pinjaman yang disebut dengan credit scoring dan credit rating terhadap pihak
peminjam.
Manfaat dari credit scoring ini adalah memperkecil risiko yang bisa terjadi pada
lembaga peminjam,
dimana berdasarkan hasil penilaian ini akan menjadi penentu apakah aplikasi
pengajuan pinjaman
diterima atau ditolak oleh lembaga finansial.
Untuk menghitung credit risk ini biasanya lembaga pembiayaan menggunakan suatu
perhitungan
standard yang telah ditentukan. Namun, yang semakin menjadi tren adalah perhitungan
dengan
menggunakan metode machine learning berdasarkan data historis pinjaman.
Course ini akan mempelajari penerapan metode machine learning di R dengan
menggunakan
algoritma decision tree bernama C5.0.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu menyusun dan menggunakan untuk
credit
scoring menggunakan R – dengan detail pengetahuan dan keterampilan yang dikuasai
sebagai
berikut:
1. Memahami permasalahan dan solusi credit scoring di lembaga pembiayaan, dan
bagaimana bisa
dimodelkan dengan decision tree.
2. Mengerti apa itu decision tree dan algoritma C5.0.
3. Memahami dan mampu mempersiapkan data untuk class variable dan input variable.
4. Memahami dan mampu mempersiapkan data untuk training dan testing dataset.
5. Menghasilkan model credit risk menggunakan algoritma C5.0.
6. Mengevaluasi akurasi model yang dihasilkan.
7. Mampu mengoperasionalkan model tersebut sehari-hari untuk memprediksi credit
risk dari data
pengajuan baru.
9Visualization in Data Science using R
Pada dasarnya, kita akan lebih memahami informasi lebih baik dan cepat jika
disajikan secara visual,
yang akhirnya berujung pada pengambilan keputusan yang juga lebih baik.
Dengan demikian, pengetahuan akan konsep dan keterampilan teknis untuk menghasilkan
data
secara visual menjadi penting dan mutlak bagi seorang data scientist.
Untuk data scientist yang menggunakan R, terdapat package ggplot2 yang memiliki
fitur yang sangat
kaya untuk menghasilkan grafik dengan komposisi berbagai elemen visual.
Grafik sendiri bukan sesuatu yang mudah dihasilkan dan dengan pendekatan konstruksi
bernama
grammar of graphics, ggplot2 menggunakan pendekatan layering sehingga untuk
menghasilkan
visualisasi yang menarik dan kompleks menjadi lebih mudah.
Course "Visualization in Data Science using R" ini membahas fundamental ggplot2.
Dengan
menggunakan dataset riil kependudukan DKI Jakarta, Anda akan dituntun setahap demi
setahap
untuk menghasilkan berbagai tipe grafik.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu menggunakan berbagai teknik dari
package
ggplot2 untuk menghasilkan berbagai grafik dasar di R – dengan detail pengetahuan
dan
keterampilan yang dikuasai sebagai berikut:
1. Memahami konsep rancangan ggplot2 sebagai grammar of graphics yang memecah satu
grafik
menjadi komponen-komponen visual.
2. Memahami dan mampu menggunakan komponen plot sebagai kanvas dasar.
3. Memahami dan mampu menggunakan data dan aesthetic mapping sebagai bagian plot
dan grafik.
4. Memahami dan mampu menggunakan layer dan komponen layer yang terdiri dari geom,
stat dan
position.
5. Penggunaan layer dan transformasi data yang diperlukan untuk menghasilkan
scatter plot,
histogram, line chart, bar chart, dan pie chart.
6. Mampu menggunakan teknik faceting untuk memecah grafik menjadi beberapa bagian
sehingga
lebih mudah dianalisa.
10Statistics using R for Data Science
Kenapa harus belajar statistik ?
Ilmu Statistik fungsinya yaitu untuk mengolah data. Data dapat berupa angka maupun
bukan angka.
Statistik merupakan pondasi awal sebelum belajar Data Science. Alasannya, banyak
tools data
science merupakan pengembangan dari teknik statistik, mulai dari sederhana sampai
yang rumit.
Sebenarnya apa statistik itu ?
Statistika adalah ilmu yang mempelajari cara pengumpulan data, menganalisis data
untuk
mendapatkan kesimpulan informasi sampai dapat dijadikan dasar pembuatan kebijakan.
Definisi
diatas mirip dengan tugas dari seorang Data Science yaitu mulai dari eksplorasi
data, modelling untuk
mendapatkan pola yang tersembunyi dari data kemudian menemukan Insight untuk dasar
kebijakan
(data-driven).
Agar dapat memahami konsep-konsep tersebut, pada bab ini juga disertakan satu
dataset file dengan
nama data_intro.csv yang akan dijadikan file praktek di R.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu mengerti ilmu statistik dengan
menggunakan R
– dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut:
1. Fungsi statistik
2. Perbedaan statistik dan parameter
3. Perbedaan data kuantitatif dan kualitatif
4. Membaca dataset dalam format CSV
5. Mengubah kolom menjadi factor
6. Estimasi Karakteristik (modus, median, mean)
7. Skala pengukuran data
8.Ukuran sebaran data (range, varian, simpangan baku)
9. Perbedaan Statistik Deskriptif dan Statistik Inferensia
10. Hubungan antar variabel
11Data Preparation in Data Science using R
Data preparation adalah proses membaca data dari berbagai sumber dan merubah isi
dan struktur
sehingga dapat digunakan untuk analisa. Data cleansing biasanya melibatkan isi yang
perlu diubah
karena kadang data dimasukkan dari sistem yang berbeda. Bertolak belakang dengan
anggapan
bahwa dengan sistem, data akan bersih dan standar. Pada kenyataannya, bisnis
berkembang lebih
cepat dibandingkan dengan pembuatan sistem sehingga banyak design diubah di tengah
jalan untuk
mengakomodir hal ini, dan isi menjadi "berantakan". Penyebab utama lainnya tentunya
adalah sistem
entri data secara manual.
Contoh yang paling sering adalah informasi pelanggan (customer). Di satu sistem
namanya boleh
memasukkan gelar, dan di satu sistem tidak boleh. Maka ada dua nama yang serupa
tapi tak sama
sebagai berikut: "Agus Cahyono S.Kom." dan "Cahyono, Agus". Struktur perlu diubah
karena berbagai
alasan, salah satu yang paling penting adalah tiap algoritma mensyaratkan struktur
data yang
berbeda dan optimal.
Data preparation adalah topik yang sangat besar, DQLab coba merancang materi ini
dengan
pembagian ke beberapa course, artikel dan project – semuanya bisa diakses di satu
platform yang
sama.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu melakukan data preparation
menggunakan R –
dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut:
1. Mempraktekkan missing Value.
2. Mempraktekkan struktur data kategori bernama Factor.
3. Membaca file-file teks dan Excel – yang paling banyak ditemui sehari-hari.
4. Melakukan perubahan struktur data sehingga cocok digunakan lebih lanjut.
12Data Exploration in Data Science using R
Fokus dari pembelajaran Data Exploration adalah pembacaan sistem database, data
cleansing, dan
data enrichment dengan detail berikut:
- Contoh Dataset "Kotor": Perkenalan contoh dataset master pelanggan yang sengaja
dirancang
dengan "kotor" atau mengandung isi yang tidak standar – menyerupai kondisi riil
yang banyak
ditemukan oleh tim DQLab selama terlibat dalam proyek-proyek pengolahan data di
Indonesia.
- Profiling: Bagaimana mengidentifikasi pola dataset kita sebelum tau apa yang
perlu dibersihkan
atau dirapikan.
- Membaca Database Relasional: Bagaimana mengakses dari sistem database dengan
memperkenalkan objek-objek database dan bahasa SQL (Structured Query Language).
- Data Cleansing – Standarisasi: Bagaimana melakukan perapian isi berbagai tipe
data dengan
menggunakan fungsi-fungsi transformasi data.
- Data Cleansing – Missing Value: Bagaimana mengisi missing value pada kolom
numerik.
- Data Cleansing – Deduplikasi: Menemukan data yang duplikat dan melakukan grouping
terhadap
data-data tersebut.
- Data Enrichment: Bagaimana melengkapi data kosong dengan melakukan lookup dari
internal data.
Walaupun cukup padat materinya, seperti biasa DQLab akan memecah topik-topik ini ke
bab-bab yang
cukup ringkas dan setahap demi setahap sehingga mudah diikuti.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu membaca sistem database, data
cleansing, dan
data enrichment menggunakan R – dengan detail pengetahuan dan keterampilan yang
dikuasai
sebagai berikut:
1. Memahami cara membaca dataset dari database
2. Memahami profiling yaitu cara mengidentifikasi pola dataset untuk mengetahui
karakteristik data
yang akan diproses.
3. Memahami cara membersihkan data (data cleansing) yang umumnya terdiri dari 3
fitur yaitu:
- Standardisasi: Merapikan format data dengan acuan yang telah ditentukan dengan
fungsi R.
- Missing values: Memahami cara mengisi missing value.
- Deduplication: Menemukan data ganda dan melakukan pengelompokan terhadap data
tersebut.
4. Memahami cara pengayaan data (data enrichment).
13Data Science in Finance: Dimension Reduction
Pada modul Data Science in Finance: Dimension Reduction kita mempelajari penerapan
algoritma
decision tree C5.0 untuk memprediksi credit scoring/rating seorang nasabah
berdasarkan
variabel-variabel seperti pendapatan, tenor pinjaman dan banyaknya tanggungan.
Dataset untuk rating kredit pada umumnya memiliki banyak sekali variabel. Harapan
dari mencatat
data dengan banyak variabel ini adalah membuat model yang bisa membuat klasifikasi
credit rating
yang akurat. Namun besarnya jumlah variabel ini juga menimbulkan persoalan
tersendiri, yaitu
banyaknya redundant variabel, kesulitan melakukan visualisasi, kesulitan
menjelaskan model dan
besarnya storage yang diperlukan.
Di sinilah teknik statistika Dimension Reduction dapat berperan, yaitu sebagai
teknik unsupervised
machine learning untuk mengurangi banyaknya variabel (dimension reduction) untuk
digunakan
sebagai input untuk algoritma lain tanpa banyak mengurangi kualitas dari prediksi
rating.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu memprediksi credit scoring seorang
nasabah
dengan perhitungan algoritma untuk mengurangi banyaknya variabel dengan detail
pengetahuan
dan keterampilan sebagai berikut:
1. Melakukan standarisasi data numerik untuk dianalisa dengan PCA.
2. Menghitung matrik korelasi antar variabel numerik.
3. Menghitung Principal Component dengan fungsi prcomp().
4. Menentukan banyaknya principal component dengan menggunakan screeplot dan
kriterion
Kaiser.
5. Membuat visualisasi Principal Component dengan biplot.
6. Menghitung skor data setelah aplikasi PCA.
14Project Machine Learning for Retail with R:
Product Packaging
Pada modul Machine Learning for Retail with R: Product Packaging kita dapat
mempelajari penerapan
R dan algoritma aproriari dari paket arules untuk menjadi solusi ketika banyaknya
stok produk yang
masih belum laku dan mampu bersaing dengan kompetitor.
Perkembangan dalam industri fashion sangatlah signifikan termasuk banyaknya
kompetitor. Hal
tersebut menyebabkan penurunan penjualan terutama untuk produk-produk yang kurang
diminati
oleh masyarakat. Paket inovatif seperti menjual produk yang kurang laku namun
memiliki pangsa
pasar dan dipaketkan menjadi sebuah solusi.
Di sinilah R dan algoritma aproriari dari paket arules dapat berperan, yaitu supaya
Anda dapat
mengidentifikasi paket produk yang menarik untuk dapat dipaketkan dan meningkatkan
keuntungan
serta loyalitas pelanggan dari DQLab.id Fashion.
Learning Outcome
Dengan menyelesaikan course ini, Anda akan mampu mengidentifikasi paket produk
menarik
dengan untuk mengurangi banyaknya variabel– dengan detail pengetahuan dan
keterampilan
sebagai berikut:
1. Melakukan standarisasi data numerik untuk dianalisa dengan PCA.
2. Menghitung matrik korelasi antar variabel numerik.
3. Menghitung Principal Component dengan fungsi prcomp().
4. Menentukan banyaknya principal component dengan menggunakan scree plot dan
kriterion Kaiser.
5. Membuat visualisasi Principal Component dengan biplot.
6. Menghitung skor data setelah aplikasi PCA.
15Let us guide you to be a
MODERN DATA SCIENTIST
Register at: dqlab.id
16

Anda mungkin juga menyukai