Anda di halaman 1dari 14

Data Science

&
Data Science Methodology
ABBA Group
Arif | Boma | Bhayu | Jessy
Data Science
Data Science
Methodology
• Apa itu Data Science? • Business understanding
• Keahlian Data Science • Analytic approach
• Mengapa Data Science Diperlukan? • Data requirements
• Peralatan Data Science • Data collection
• Data understanding
• Data preparation
• Modelling
• Evaluation
• Deployment
• Feedback
Apa itu Data Science?
DATA
Informasi yang disimpan DATA SCIENCE
dan dapat diambil kembali
Bidang studi yang menggabungkan keahlian domain,
keterampilan pemrograman, dan pengetahuan matematika dan
SCIENCE statistik untuk mengekstrak wawasan yang bermakna dari data
Bidang studi tentang sifat
ilmu pengetahuan tertentu

Data analyst : mencari insight dan melakukan analisi data untuk


memajukan bisnis dari berbagai aspek

Data engineer : untuk mengembangkan dan membuat data


arsitektur, serta manajemen data di dalam sebuah perusahaan

Data scientist : melakukan eksperimen untuk membuktikan dan


memberikan saran yang paling tepat untuk perkembangan
sebuah organisasi, perusahaan, dan badan usaha.
Keahlian Data Scientist

Pemrograman dan Database


Komunikasi dan Visualisasi • Fundamental ilmu komputer
• Keterampilan seni visual • Database Management System
• Keterampilan mendongeng • Coding Python
• Konversi data menjadi kesimpulan • Big Data
• Kolaborasi dengan Senior Management • MySQL

Matematika dan Statistik


Pengetahuan Domain dan Soft Skill
• Pemodelan Statistik
• Kecenderungan pada bisnis
• Machine Learning
• Tertarik mengolah data
• Clustering
• Berpikir kritis
• Regression Analysis
• Pemecahan Masalah Kreatif
• Exploration Analysis
• Strategis, proaktif, kooperatif
Mengapa Data Science Diperlukan?

Ketersediaan data Lebih cepat menentukan pokok Memberikan nilai tambah dari
tumbuh secara berkelanjutan permasalahan dan tindakan yang diambil segi bisnis kepada perusahaan
Peralatan Data Science

1. Pengumpulan Data 2. Transformasi

5. Peralatan Lain 3. Model

4. Visualisasi
Prescriptive
Descriptive

Diagnostic

Predictive
Primary & secondary data
Business Analytical Data
Data Collection ETL
Understanding Approach Requirements
(Extract, Transform, Load)
What is the problem that How can I solve What data Where does the
I am trying to solve? the problem? do I need? data come from?

Describing Data
What can I learn Data
Exploratory Data

DATA SCIENCE
from the data? Understanding
Data Quality Verification

METHODOLOGY What additional work is


needed to manipulate &
Data Feature Engineering
work with data? Preparation Data Splitting

Can I get constructive Does the model really How can I use Machine
feedback into answering Can I put the model answer the question? OR Learning algorithms to
the question? into practice? does it need to be adjusted? answer the questions?
Regression

Feedback Deployment Evaluation Modelling Classification


Clustering
Business Proses komunikasi untuk mendapatkan pemahaman
tentang masalah apa yang akan dipecahkan
Understanding (dalam kapasitas sebagai Data Scientist)

Bagaimana caranya?
• Berkomunikasi dengan konsumen dan stakeholders untuk mengidentifikasi permasalahan bisnis
• Memformulasikan pertanyaan untuk menentukan tujuan bisnis sebagai target Data Scientist

Proses menentukan pendekatan yang sesuai untuk


Analytical Approach menyelesaikan masalah yang ada.

Descriptive Menganalisa keadaan yang sedang terjadi berdasarkan data historis

Diagnostic Menganalisa penyebab terjadinya suatu peristiwa dalam bisnis

Predictive Melakukan prediksi atas peristiwa yang terjadi di masa depan


Prescriptive Menentukan langkah yang akan diambil di masa depan
berdasarkan prediksi yang didapatkan
Dengan cara :
Data Requirements
• Melihat entitas yang terlibat
• Menetapkan batas waktu
menemukan sumber data yang
mungkin akan relevan dengan • Memperhatikan aktivitas yang berpengaruh terhadap kejadian
kebutuhan dan dapat digunakan
• Menentukan alat yang digunakan
untuk menjawab permasalahan bisnis

Jenis Data:
• Primary : diolah oleh organisasi dan didapatkan dari sumber langsung
• Secondary : didapatkan dari sumber lain Data Collection
Proses Data Collection:
• API & Web Scrapping : mengakses data ke tempat penyimpanan Mengumpulkan data spesifik untuk
• Record Linkage : menggabungkan data ke bentuk yang digunakan disesuaikan dengan kondisi yang
• Storing Data : menyimpan data ke kondisi pemrosesan data ditetapkan
• Processing Large Data Set : memroses data untuk analisa
Tahapan Data Collection:
• ETL (Extract – Transform – Load)
Data Understanding Proses memahami informasi yang tersedia di dalam proyek Data Science

Laporan deskripsi data yang menjabarkan area permasalahan dan informasi


Describing Data
penting lainnya

Mengamati rentang nilai dan distribusinya lalu menggunakan manipulasi


Exploratory Data
data sederhana dan Teknik statistic dasar untuk memeriksa data.

Memeriksa kualitas data untuk menentukan apakah banyak data kosong,,


Data Quality Verification
invalid data, dan lain sebagainya.
Data Preparation

Proses untuk mentransformasi data sehingga data-data mentah sudah


siap untuk dibuat model menggunakan algoritma machine learning

Bisa disebut juga sebagai Salah satu tahap yang paling krusial
Pra-Pemrosesan Data dan membutuhkan waktu yang lama

Contoh aktivitas yang biasanya dilakukan dalam tahap Data Preparation

Contoh :
Feature Engineering Membagi data menjadi 2 bagian, yaitu Training Data Set dan Test Data Set.

Contoh :
Data Splitting Membuat fitur –fitur baru agar model Machine Learning bekerja lebih akurat
Proses pembuatan model menggunakan algoritma Machine
Modelling Learning, yang bertujuan untuk menjawab suatu permasalahan.

Algoritma Machine Learning bisa


diklasifikasikan menjadi 3 kategori :

Identifikasi hubungan antara 2 variable atau lebih yang biasanya digunakan


Regression
untuk memprediksi suatu nilai.

Mengelompokan dan mempelajari hubungan kumpulan variable, yang mana


Classification
target variabel berbentuk kategori, seperti Pria atau Wanita , Ya atau Tidak

Clustering Mengelompokan data yang memiliki kemiripan satu sama lain diantara suatu
kelompok data.
Proses mengevaluasi model yang sudah dibuat agar
mengetahui tingkat akurat model tersebut dan juga
Evaluation mengetahui apakah model tersebut sudah menjawab
permasalahan bisnis yang dialami.

Proses menerapkan model yang sudah kita buat


ke dalam suatu bisnis yang sedang berjalan. Bisa
Deployment berupa hal yang sederhana seperti menghasilkan
sebuah laporan ataupun hal yang kompleks.

Bisa disebut juga sebagai momen untuk


mendengarkan kritik dan saran atas
Feedback model yang sudah kita buat, untuk
pengembangan selanjutnya.

Anda mungkin juga menyukai