For IT & Business UsersTable of Content Table of Content............................................................................ .................. 1 About DQLab.............................................................................. ...................... 2 Key Features........................................................................... ......................... 3 DQLab Learning Course............................................................................. ..... 4 R Fundamental for Data Science................................................................... 6 Data Science in Retail: Market Basket Analysis........................................... 7 Data Science in Marketing: Customer Segmentation.................................. 8 Data Science in Finance: Credit Risk Prediction.......................................... 9 Data Visualization in Data Science using R.................................................. 10 Statistics using R for Data Science............................................................... 11 Data Preparation in Data Science using R.................................................... 12 Data Exploration in Data Science using R.................................................... 13 Data Science in Finance: Dimension Reduction.......................................... 14 Project Machine Learning for Retail with R: Product Packaging................. 15 1About DQLab Program Sebagai seorang Data Scientist, Anda dituntut bisa bekerja dengan berbagai format data, memiliki pengetahuan tentang algoritma, memahami teknik pengolahan, dan manajemen data yang disesuaikan dengan kasus bisnis. Program DQLab memberikan learning journey practical menjawab kebutuhan Industri dengan memanfaatkan rangkaian ilmu statistik, pemrograman, dan bisnis yang dapat secara langsung diterapkan secara aplikatif berbasis project. Cocok bagi pemula (programmer & non-programmer) yang ingin menerapkan teknik Data Science untuk menghasilkan insight bisnis atau sedang mengejar karir dibidang ini. � 2DQLab Online Data Science Program trains you along an industry recommended learning path to succeed in the field of applied Data Science Key Features Industry recommended learning path Hands on project execution in DQLab Platform (Say goodbye to complicated installations) Certified upon modules & project completion Work on real case scenario projects in various retail, distribution, finance, and media Industries � Technical, project, programming support by data & industry experts 3DQLab Learning Module R Course R Fundamental for Data Science Pelajari langkah dasar untuk memulai R , bahasa yang sangat populer di data science - mulai dari operasi matematika sampai visualisasi data. Data Science in Retail: Market Basket Analysis Pelajari algoritma machine learning untuk kasus bisnis retail, yaitu Market Basket Analysis dimana seorang data scientist akan mencari hubungan antar produk yang kuat berdasarkan data transaksi belanja. Data Science in Marketing: Customer Segmentation Pelajari teknik analisa yang membagi data-data customer menjadi beberapa segmen yang bermanfaat bagi bisnis di marketing dan CRM. Data Science Finance: Credit Risk Prediction Pelajari penggunaan algoritma decision tree untuk pembuatan dan operasional model prediksi resiko kredit (credit risk) di R. Data Visualization in Data Science using R Kuasai keterampilan membuat komposisi grafik visualisasi data dasar yang informatif dan menarik dengan menggunakan package ggplot2 di R. Statistics using R for Data Science Dasar-dasar ilmu statistik untuk memulai perjalanan data science dengan menggunakan R. 4Data Preparation in Data Science using R Kuasai keterampilan data preparation atau data wrangling ini langkah demi langkah - dengan fokus pada transformasi struktur dari file dataset kependudukan DKI Jakarta. Data Exploration in Data Science using R Bagian dua dari data wrangling mempelajari bagaimana melakukan data profiling, data cleansing, data enrichment dengan dataset pelanggan dari file Excel dan database MySQL. Data Science in Finance: Dimension Reduction Pelajari metode Principal Component Analysis untuk mereduksi dimensi (feature extraction) dalam data berdimensi tinggi. Dalam modul ini PCA diterapkan untuk data credit rating. Project List Project Machine Learning for Retail with R: Product Packaging Pelajari Python - bahasa pemograman terpopuler di dunia saat ini, dengan cara simpel, praktis dan mengasyikkan. Tujuan course dasar ini agar Anda bisa mengenal dan mulai menggunakan Python di kegiatan sehari-hari. Churn Analysis 5Data Preparation and Wrangling with R (Part 2) R Fundamental for Data Science Data science adalah ilmu yang popularitas dan kebutuhannya semakin tinggi. Ilmu ini merupakan gabungan dari ilmu statistik, bisnis, dan computer science. Data scientist adalah nama profesi untuk orang yang bekerja dengan ilmu data science. Ada dua bahasa pemrograman yang ikut terangkat popularitasnya karena banyak digunakan dan dikembangkan oleh para data scientist, yaitu R dan Python – keduanya bersifat gratis dan open source. R adalah software dan bahasa pemrograman yang fokus ke pengolahan data terutama proses analisa data. Yang membuat R populer adalah fiturnya yang sangat kaya – dimana saat ini terdapat lebih dari 13 ribu package, dari membaca file teks, database sampai penggunaan machine learning untuk analisa otomatis. Bagi Anda yang sering menggunakan Excel, mungkin R bisa disamakan dengan pasangan Excel dan VBA (Visual Basic for Application) - yang kombinasinya membuat Excel menjadi powerful. Course "R Fundamental for Data Science" ini adalah course yang diperuntukkan bagi Anda memulai perjalanan mempelajari R. Dengan menyelesaikan course ini, Anda akan lebih mudah melanjutkan ke topik penting selanjutnya. Learning Outcome Setelah menyelesaikan course ini, peserta akan mendapatkan pengetahuan dan keterampilan fundamental R sebagai berikut: 1. Mengerti hal-hal dasar di R seperti menggunakan dan menampilkan angka, teks, dan perhitungan matematika dasar. 2. Mampu menggunakan variable untuk menyimpan nilai. 3. Mengerti penggunaan komentar (comment) untuk menghasilkan human readable code. 4. Mengerti sifat R yang case sensitive – huruf besar dan huruf kecil merupakan hal yang berbeda. 5. Mengerti penggunaan tipe data logika TRUE / FALSE. 6. Memahami contoh error. 7. Memahami apa dan bagaimana menggunakan package. 8. Mengerti bagaimana membaca file Excel. 9. Mampu menghasilkan grafik bar chart dan pie chart dengan data yang dibaca dari file Excel. Churn Analysis Dengan menyelesaikan course ini, Anda akan lebih mudah melanjutkan ke topik penting selanjutnya seperti Data Science in Retail dan Visualization Data in Data Science using R. 6Data Science in Retail: Market Basket Analysis Anda mungkin sering mendengar mengenai bagaimana bisnis berkembang dan maju pesat berkat inovasi teknologi? Di bisnis ritel, salah satu inovasi teknologi adalah analisa otomatis terhadap ribuan sampai jutaan data transaksi untuk mendapatkan kombinasi produk yang sering dibeli bersamaan. Dari berbagai studi kasus, informasi kombinasi ini dapat digunakan untuk meningkatkan penjualan 18% sampai dengan 60%. Peningkatan ini diperoleh dengan cara: 1. Membuat paket menarik untuk ditawarkan kepada konsumen. 2. Memberikan rekomendasi produk secara proaktif. 3. Menyusun posisi produk pada rak toko dimana kemungkinan untuk dibeli lebih besar. 4. Menyusun halaman produk e-commerce dengan kombinasi tersebut ditampilkan bersama. Selain efektif untuk meningkatkan penjualan, informasi ini sekaligus bisa digunakan untuk memecahkan masalah stok. Kenapa bisa? Karena apabila stok yang sebelumnya menumpuk, kini dapat dicari pasangan produk yang tepat untuk dipaketkan bersama. Proses analisa ini dikenal sebagai Market Basket Analysis (MBA). Dan di dunia data science, algoritma yang populer untuk mendukung proses ini adalah Apriori. Course ini akan mempelajari bagaimana menerapkan MBA melalui algoritma Apriori dengan menggunakan R. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu menyusun model rekomendasi produk yang berdampak pada peningkatan penjualan dan mengurangi masalah inventory di bidang ritel – dengan detail pengetahuan dan keterampilan sebagai berikut: 1. Memahami penggunaan Market Basket Analysis (MBA) di dunia ritel. 2. Memahami dan mampu mempersiapkan data yang diperlukan. 3. Memahami konsep fundamental item, itemset, frequent itemset dan association rules. 4. Memahami dan mampu menggunakan algoritma Apriori untuk menghasilkan model association rules dengan R. 5. Mampu menghasilkan daftar kombinasi produk yang memiliki asosiasi kuat berdasarkan nilai support, confidence dan lift. 6. Mampu mengoperasionalkan model sehari-hari untuk menghasilkan rekomendasi produk kepada customer. 7 1Data Science in Marketing: Customer Segmentation Seluruh bisnis atau badan usaha – baik itu bisnis kecil, menengah maupun besar – pasti memiliki customer atau pelanggan. Kadangkala pelanggan itu karakternya spesifik, misalkan wanita dewasa (berumur di atas 17 tahun). Namun sebenarnya karakteristik itu bisa dibagi lagi lebih detail berdasarkan profesi, misalkan ibu rumah tangga dan wanita karir. Dan itu masih dibagi lagi lebih detail berdasarkan total pembelanjaan selama setahun, provinsi tempat tinggal, dan lain-lain. Semakin kita mengenali karakteristik pelanggan kita, maka akan semakin mudah kita melakukan inovasi produk dengan kebutuhan karakter tersebut dan melakukan komunikasi pemasaran. Proses pembagian karakteristik pelanggan ini disebut dengan segmentasi pelanggan atau customer segmentation. Jika proses ini dilakukan terhadap data customer yang kita miliki secara manual, akan sulit dan memakan waktu jika dilakukan secara manual – terutama dengan jumlah dan variasi data yang besar. Beruntung saat ini sudah banyak proses otomatisasi untuk melakukan customer segmentation menggunakan berbagai algoritma machine learning. Dua diantaranya adalah k-means dan k-modes. Course "Data Science in Marketing: Customer Segmentation" ini akan berfokus pada pemahaman dan penggunaan kedua algoritma tersebut dengan pendekatan praktek menggunakan bahasa pemrograman R. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu menyusun model k-means dan k-modes untuk menghasilkan customer segmentation menggunakan R – dengan detail pengetahuan dan keterampilan sebagai berikut: 1. Memahami apa itu customer segmentation dalam penggunaannya di dunia bisnis. 2. Mampu membaca dan mempersiapkan data profil pelanggan. 3. Mampu menghasilkan model customer segmentation dengan algoritma k-means dan k- modes. 4. Mengoperasionalkan model sehingga dapat digunakan sehari-hari oleh bisnis. 8Data Science in Finance: Credit Risk Prediction Credit risk adalah risiko yang harus ditanggung oleh sebuah bank atau lembaga pembiayaan lain ketika memberikan pinjaman ke seorang individu atau lembaga lain. Risiko ini berupa tidak bisa dibayarkannya pokok dan bunga pinjaman, sehingga mengakibatkan kerugian berikut: 1. Gangguan aliran kas (cash flow) sehingga modal kerja terganggu. 2. Meningkatkan biaya operasional untuk mengejar pembayaran tersebut (collection). Untuk memperkecil risiko kredit ini, biasanya dilakukan proses penilaian risiko sebelum diberikan pinjaman yang disebut dengan credit scoring dan credit rating terhadap pihak peminjam. Manfaat dari credit scoring ini adalah memperkecil risiko yang bisa terjadi pada lembaga peminjam, dimana berdasarkan hasil penilaian ini akan menjadi penentu apakah aplikasi pengajuan pinjaman diterima atau ditolak oleh lembaga finansial. Untuk menghitung credit risk ini biasanya lembaga pembiayaan menggunakan suatu perhitungan standard yang telah ditentukan. Namun, yang semakin menjadi tren adalah perhitungan dengan menggunakan metode machine learning berdasarkan data historis pinjaman. Course ini akan mempelajari penerapan metode machine learning di R dengan menggunakan algoritma decision tree bernama C5.0. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu menyusun dan menggunakan untuk credit scoring menggunakan R – dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut: 1. Memahami permasalahan dan solusi credit scoring di lembaga pembiayaan, dan bagaimana bisa dimodelkan dengan decision tree. 2. Mengerti apa itu decision tree dan algoritma C5.0. 3. Memahami dan mampu mempersiapkan data untuk class variable dan input variable. 4. Memahami dan mampu mempersiapkan data untuk training dan testing dataset. 5. Menghasilkan model credit risk menggunakan algoritma C5.0. 6. Mengevaluasi akurasi model yang dihasilkan. 7. Mampu mengoperasionalkan model tersebut sehari-hari untuk memprediksi credit risk dari data pengajuan baru. 9Visualization in Data Science using R Pada dasarnya, kita akan lebih memahami informasi lebih baik dan cepat jika disajikan secara visual, yang akhirnya berujung pada pengambilan keputusan yang juga lebih baik. Dengan demikian, pengetahuan akan konsep dan keterampilan teknis untuk menghasilkan data secara visual menjadi penting dan mutlak bagi seorang data scientist. Untuk data scientist yang menggunakan R, terdapat package ggplot2 yang memiliki fitur yang sangat kaya untuk menghasilkan grafik dengan komposisi berbagai elemen visual. Grafik sendiri bukan sesuatu yang mudah dihasilkan dan dengan pendekatan konstruksi bernama grammar of graphics, ggplot2 menggunakan pendekatan layering sehingga untuk menghasilkan visualisasi yang menarik dan kompleks menjadi lebih mudah. Course "Visualization in Data Science using R" ini membahas fundamental ggplot2. Dengan menggunakan dataset riil kependudukan DKI Jakarta, Anda akan dituntun setahap demi setahap untuk menghasilkan berbagai tipe grafik. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu menggunakan berbagai teknik dari package ggplot2 untuk menghasilkan berbagai grafik dasar di R – dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut: 1. Memahami konsep rancangan ggplot2 sebagai grammar of graphics yang memecah satu grafik menjadi komponen-komponen visual. 2. Memahami dan mampu menggunakan komponen plot sebagai kanvas dasar. 3. Memahami dan mampu menggunakan data dan aesthetic mapping sebagai bagian plot dan grafik. 4. Memahami dan mampu menggunakan layer dan komponen layer yang terdiri dari geom, stat dan position. 5. Penggunaan layer dan transformasi data yang diperlukan untuk menghasilkan scatter plot, histogram, line chart, bar chart, dan pie chart. 6. Mampu menggunakan teknik faceting untuk memecah grafik menjadi beberapa bagian sehingga lebih mudah dianalisa. 10Statistics using R for Data Science Kenapa harus belajar statistik ? Ilmu Statistik fungsinya yaitu untuk mengolah data. Data dapat berupa angka maupun bukan angka. Statistik merupakan pondasi awal sebelum belajar Data Science. Alasannya, banyak tools data science merupakan pengembangan dari teknik statistik, mulai dari sederhana sampai yang rumit. Sebenarnya apa statistik itu ? Statistika adalah ilmu yang mempelajari cara pengumpulan data, menganalisis data untuk mendapatkan kesimpulan informasi sampai dapat dijadikan dasar pembuatan kebijakan. Definisi diatas mirip dengan tugas dari seorang Data Science yaitu mulai dari eksplorasi data, modelling untuk mendapatkan pola yang tersembunyi dari data kemudian menemukan Insight untuk dasar kebijakan (data-driven). Agar dapat memahami konsep-konsep tersebut, pada bab ini juga disertakan satu dataset file dengan nama data_intro.csv yang akan dijadikan file praktek di R. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu mengerti ilmu statistik dengan menggunakan R – dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut: 1. Fungsi statistik 2. Perbedaan statistik dan parameter 3. Perbedaan data kuantitatif dan kualitatif 4. Membaca dataset dalam format CSV 5. Mengubah kolom menjadi factor 6. Estimasi Karakteristik (modus, median, mean) 7. Skala pengukuran data 8.Ukuran sebaran data (range, varian, simpangan baku) 9. Perbedaan Statistik Deskriptif dan Statistik Inferensia 10. Hubungan antar variabel 11Data Preparation in Data Science using R Data preparation adalah proses membaca data dari berbagai sumber dan merubah isi dan struktur sehingga dapat digunakan untuk analisa. Data cleansing biasanya melibatkan isi yang perlu diubah karena kadang data dimasukkan dari sistem yang berbeda. Bertolak belakang dengan anggapan bahwa dengan sistem, data akan bersih dan standar. Pada kenyataannya, bisnis berkembang lebih cepat dibandingkan dengan pembuatan sistem sehingga banyak design diubah di tengah jalan untuk mengakomodir hal ini, dan isi menjadi "berantakan". Penyebab utama lainnya tentunya adalah sistem entri data secara manual. Contoh yang paling sering adalah informasi pelanggan (customer). Di satu sistem namanya boleh memasukkan gelar, dan di satu sistem tidak boleh. Maka ada dua nama yang serupa tapi tak sama sebagai berikut: "Agus Cahyono S.Kom." dan "Cahyono, Agus". Struktur perlu diubah karena berbagai alasan, salah satu yang paling penting adalah tiap algoritma mensyaratkan struktur data yang berbeda dan optimal. Data preparation adalah topik yang sangat besar, DQLab coba merancang materi ini dengan pembagian ke beberapa course, artikel dan project – semuanya bisa diakses di satu platform yang sama. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu melakukan data preparation menggunakan R – dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut: 1. Mempraktekkan missing Value. 2. Mempraktekkan struktur data kategori bernama Factor. 3. Membaca file-file teks dan Excel – yang paling banyak ditemui sehari-hari. 4. Melakukan perubahan struktur data sehingga cocok digunakan lebih lanjut. 12Data Exploration in Data Science using R Fokus dari pembelajaran Data Exploration adalah pembacaan sistem database, data cleansing, dan data enrichment dengan detail berikut: - Contoh Dataset "Kotor": Perkenalan contoh dataset master pelanggan yang sengaja dirancang dengan "kotor" atau mengandung isi yang tidak standar – menyerupai kondisi riil yang banyak ditemukan oleh tim DQLab selama terlibat dalam proyek-proyek pengolahan data di Indonesia. - Profiling: Bagaimana mengidentifikasi pola dataset kita sebelum tau apa yang perlu dibersihkan atau dirapikan. - Membaca Database Relasional: Bagaimana mengakses dari sistem database dengan memperkenalkan objek-objek database dan bahasa SQL (Structured Query Language). - Data Cleansing – Standarisasi: Bagaimana melakukan perapian isi berbagai tipe data dengan menggunakan fungsi-fungsi transformasi data. - Data Cleansing – Missing Value: Bagaimana mengisi missing value pada kolom numerik. - Data Cleansing – Deduplikasi: Menemukan data yang duplikat dan melakukan grouping terhadap data-data tersebut. - Data Enrichment: Bagaimana melengkapi data kosong dengan melakukan lookup dari internal data. Walaupun cukup padat materinya, seperti biasa DQLab akan memecah topik-topik ini ke bab-bab yang cukup ringkas dan setahap demi setahap sehingga mudah diikuti. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu membaca sistem database, data cleansing, dan data enrichment menggunakan R – dengan detail pengetahuan dan keterampilan yang dikuasai sebagai berikut: 1. Memahami cara membaca dataset dari database 2. Memahami profiling yaitu cara mengidentifikasi pola dataset untuk mengetahui karakteristik data yang akan diproses. 3. Memahami cara membersihkan data (data cleansing) yang umumnya terdiri dari 3 fitur yaitu: - Standardisasi: Merapikan format data dengan acuan yang telah ditentukan dengan fungsi R. - Missing values: Memahami cara mengisi missing value. - Deduplication: Menemukan data ganda dan melakukan pengelompokan terhadap data tersebut. 4. Memahami cara pengayaan data (data enrichment). 13Data Science in Finance: Dimension Reduction Pada modul Data Science in Finance: Dimension Reduction kita mempelajari penerapan algoritma decision tree C5.0 untuk memprediksi credit scoring/rating seorang nasabah berdasarkan variabel-variabel seperti pendapatan, tenor pinjaman dan banyaknya tanggungan. Dataset untuk rating kredit pada umumnya memiliki banyak sekali variabel. Harapan dari mencatat data dengan banyak variabel ini adalah membuat model yang bisa membuat klasifikasi credit rating yang akurat. Namun besarnya jumlah variabel ini juga menimbulkan persoalan tersendiri, yaitu banyaknya redundant variabel, kesulitan melakukan visualisasi, kesulitan menjelaskan model dan besarnya storage yang diperlukan. Di sinilah teknik statistika Dimension Reduction dapat berperan, yaitu sebagai teknik unsupervised machine learning untuk mengurangi banyaknya variabel (dimension reduction) untuk digunakan sebagai input untuk algoritma lain tanpa banyak mengurangi kualitas dari prediksi rating. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu memprediksi credit scoring seorang nasabah dengan perhitungan algoritma untuk mengurangi banyaknya variabel dengan detail pengetahuan dan keterampilan sebagai berikut: 1. Melakukan standarisasi data numerik untuk dianalisa dengan PCA. 2. Menghitung matrik korelasi antar variabel numerik. 3. Menghitung Principal Component dengan fungsi prcomp(). 4. Menentukan banyaknya principal component dengan menggunakan screeplot dan kriterion Kaiser. 5. Membuat visualisasi Principal Component dengan biplot. 6. Menghitung skor data setelah aplikasi PCA. 14Project Machine Learning for Retail with R: Product Packaging Pada modul Machine Learning for Retail with R: Product Packaging kita dapat mempelajari penerapan R dan algoritma aproriari dari paket arules untuk menjadi solusi ketika banyaknya stok produk yang masih belum laku dan mampu bersaing dengan kompetitor. Perkembangan dalam industri fashion sangatlah signifikan termasuk banyaknya kompetitor. Hal tersebut menyebabkan penurunan penjualan terutama untuk produk-produk yang kurang diminati oleh masyarakat. Paket inovatif seperti menjual produk yang kurang laku namun memiliki pangsa pasar dan dipaketkan menjadi sebuah solusi. Di sinilah R dan algoritma aproriari dari paket arules dapat berperan, yaitu supaya Anda dapat mengidentifikasi paket produk yang menarik untuk dapat dipaketkan dan meningkatkan keuntungan serta loyalitas pelanggan dari DQLab.id Fashion. Learning Outcome Dengan menyelesaikan course ini, Anda akan mampu mengidentifikasi paket produk menarik dengan untuk mengurangi banyaknya variabel– dengan detail pengetahuan dan keterampilan sebagai berikut: 1. Melakukan standarisasi data numerik untuk dianalisa dengan PCA. 2. Menghitung matrik korelasi antar variabel numerik. 3. Menghitung Principal Component dengan fungsi prcomp(). 4. Menentukan banyaknya principal component dengan menggunakan scree plot dan kriterion Kaiser. 5. Membuat visualisasi Principal Component dengan biplot. 6. Menghitung skor data setelah aplikasi PCA. 15Let us guide you to be a MODERN DATA SCIENTIST Register at: dqlab.id 16
Pendekatan sederhana untuk SEO: Bagaimana memahami dasar-dasar optimasi mesin pencari dengan cara yang sederhana dan praktis melalui jalur penemuan non-spesialis untuk semua orang