&
Data Science Methodology
ABBA Group
Arif | Boma | Bhayu | Jessy
Data Science
Data Science
Methodology
• Apa itu Data Science? • Business understanding
• Keahlian Data Science • Analytic approach
• Mengapa Data Science Diperlukan? • Data requirements
• Peralatan Data Science • Data collection
• Data understanding
• Data preparation
• Modelling
• Evaluation
• Deployment
• Feedback
Apa itu Data Science?
DATA
Informasi yang disimpan DATA SCIENCE
dan dapat diambil kembali
Bidang studi yang menggabungkan keahlian domain,
keterampilan pemrograman, dan pengetahuan matematika dan
SCIENCE statistik untuk mengekstrak wawasan yang bermakna dari data
Bidang studi tentang sifat
ilmu pengetahuan tertentu
Ketersediaan data Lebih cepat menentukan pokok Memberikan nilai tambah dari
tumbuh secara berkelanjutan permasalahan dan tindakan yang diambil segi bisnis kepada perusahaan
Peralatan Data Science
4. Visualisasi
Prescriptive
Descriptive
Diagnostic
Predictive
Primary & secondary data
Business Analytical Data
Data Collection ETL
Understanding Approach Requirements
(Extract, Transform, Load)
What is the problem that How can I solve What data Where does the
I am trying to solve? the problem? do I need? data come from?
Describing Data
What can I learn Data
Exploratory Data
DATA SCIENCE
from the data? Understanding
Data Quality Verification
Can I get constructive Does the model really How can I use Machine
feedback into answering Can I put the model answer the question? OR Learning algorithms to
the question? into practice? does it need to be adjusted? answer the questions?
Regression
Bagaimana caranya?
• Berkomunikasi dengan konsumen dan stakeholders untuk mengidentifikasi permasalahan bisnis
• Memformulasikan pertanyaan untuk menentukan tujuan bisnis sebagai target Data Scientist
Jenis Data:
• Primary : diolah oleh organisasi dan didapatkan dari sumber langsung
• Secondary : didapatkan dari sumber lain Data Collection
Proses Data Collection:
• API & Web Scrapping : mengakses data ke tempat penyimpanan Mengumpulkan data spesifik untuk
• Record Linkage : menggabungkan data ke bentuk yang digunakan disesuaikan dengan kondisi yang
• Storing Data : menyimpan data ke kondisi pemrosesan data ditetapkan
• Processing Large Data Set : memroses data untuk analisa
Tahapan Data Collection:
• ETL (Extract – Transform – Load)
Data Understanding Proses memahami informasi yang tersedia di dalam proyek Data Science
Bisa disebut juga sebagai Salah satu tahap yang paling krusial
Pra-Pemrosesan Data dan membutuhkan waktu yang lama
Contoh :
Feature Engineering Membagi data menjadi 2 bagian, yaitu Training Data Set dan Test Data Set.
Contoh :
Data Splitting Membuat fitur –fitur baru agar model Machine Learning bekerja lebih akurat
Proses pembuatan model menggunakan algoritma Machine
Modelling Learning, yang bertujuan untuk menjawab suatu permasalahan.
Clustering Mengelompokan data yang memiliki kemiripan satu sama lain diantara suatu
kelompok data.
Proses mengevaluasi model yang sudah dibuat agar
mengetahui tingkat akurat model tersebut dan juga
Evaluation mengetahui apakah model tersebut sudah menjawab
permasalahan bisnis yang dialami.