Anda di halaman 1dari 61

Data Science and Big Data Analytics

Chap 2: Data Analytics Lifecycle

Prof. Dr. Ir. Agus Buono, M.Si., M.Kom.


Desta Sandya Prasvita, S.Komp., M.Kom.
Data Analytics Lifecycle
 Data Analytics Lifecycle Overview
 Phase 1: Discovery
 Phase 2: Data Preparation
 Phase 3: Model Planning
 Phase 4: Model Building
 Phase 5: Communicate Results
 Phase 6: Operationalize
 Case Study: GINA
Data Analytics Lifecycle
Overview

Data analytic lifecycle dirancang untuk masalah proyek big


data dan data science

Dengan enam fase pekerjaan proyek dapat terjadi dalam


beberapa fase secara bersamaan

Siklus berulang untuk menggambarkan proyek nyata

Pekerjaan dapat kembali ke fase sebelumnya karena


informasi baru terungkap
Key Roles for a
Successful
Analytics
Project
Key Roles for a Successful
Analytics Project
Key Roles for a
Successful Analytics Project
 Business User – memahami area domain
 Project Sponsor – Bertanggung jawab untuk asal-usul proyek.
Memberikan requirements proyek.
 Project Manager – Memastikan milestones dan memastikan projek
tepat waktu dan dengan kualitas yang diharapkan.
 Business Intelligence Analyst – Memberikan keahlian domain bisnis
berdasarkan pemahaman mendalam tentang data
 Database Administrator (DBA) – Menyediakan dan mengonfigurasi
environment basis data untuk mendukung kebutuhan analitik tim.
 Data Engineer – memberikan keterampilan teknis, membantu
pengelolaan dan ekstraksi data, supports analytic sandbox
 Data Scientist – Memberikan keahlian untuk teknik analitis,
pemodelan data, dan menerapkan teknik analitis yang valid untuk
masalah bisnis yang diberikan.
Background and Overview of
Data Analytics Lifecycle

 Daur Hidup Analisis Data menentukan proses analisis dan


praktik terbaik dari penemuan hingga penyelesaian proyek
 The Lifecycle employs aspects of
 Scientific method
 Cross Industry Standard Process for Data Mining (CRISP-DM)
 Process model for data mining
 Davenport’s DELTA framework
 Hubbard’s Applied Information Economics (AIE) approach
 MAD Skills: New Analysis Practices for Big Data by Cohen et al.
Overview of
Data Analytics Lifecycle
2.2 Phase 1: Discovery

Apakah saya memiliki


informasi yang cukup
untuk menyusun rencana
analitik dan berbagi
untuk tinjauan sejawat?
2.2 Phase 1: Discovery

1. Learning the Business Domain


2. Resources
3. Framing the Problem
4. Identifying Key Stakeholders
5. Interviewing the Analytics Sponsor
6. Developing Initial Hypotheses
7. Identifying Potential Data Sources
2.3 Phase 2: Data Preparation
Apakah saya
memiliki data
berkualitas yang
cukup baik untuk
mulai membangun
model?
Phase 2: Data Preparation

 Termasuk langkah-langkah untuk mengeksplorasi,


preprocess, dan mengkondisikan data sebelum pemodelan
dan analisis
 membuat lingkungan yang kuat di mana ia dapat
menjelajahi data yang terpisah dari lingkungan produksi -
analytics sandbox
 Data preparation cenderung menjadi langkah paling
intensive dalam siklus analitik
 Seringkali setidaknya 50% dari waktu proyek data science
 Tahap data preparation umumnya yang paling sering
dikerjakan berulang dan cenderung diremehkan oleh tim
2.3.1 Preparing the Analytic Sandbox

 Create the analytic sandbox (also called workspace)


 Mengizinkan tim mengeksplorasi data tanpa mengganggu
data produksi langsung
 Sandbox mengumpulkan semua jenis data (pendekatan
ekspansif)
 Sandbox memungkinkan organisasi untuk melakukan
proyek untuk melakukan analisis prediktif yang canggih
 Meskipun konsep sandbox analitik relatif baru, konsep ini
telah diterima oleh tim data science dan kelompok TI
Performing ETL
(Extract, Transform,
 ETL melakukan ekstrak,
Load) transformasi, loading
 Extract adalah proses memilih
dan mengambil data dari satu
atau beberapa sumber
 Transform adalah memproses
data yang telah diambil pada
proses extract akan
dibersihkan dan mengubah
data dari bentuk asli menjadi
bentuk yang sesuai dengan
kebutuhan data warehouse.
 Load adalah proses terakhir
yang berfungsi untuk
memasukkan data ke dalam
target akhir, yaitu ke dalam
data warehouse.
2.3.3 Learning about the Data

 Becoming familiar with the data is critical


 Kegiatan ini mencapai beberapa tujuan:
 Menentukan data yang tersedia untuk tim di awal
proyek
 Highlights gap - mengidentifikasi data yang saat ini
tidak tersedia
 Identifikasi data di luar organisasi yang mungkin
berguna
Learning about the Data Sample
Dataset Inventory
2.3.4 Data Conditioning

 Data conditioning includes cleaning data,


normalizing datasets, and performing
transformations
 Sering dipandang sebagai preprocessing step sebelum
analisis data, mungkin dilakukan oleh data owner, IT
department, DBA, dll.
 Baiknya untuk melibatkan data scientists
 Tim data scientists lebih suka lebih banyak data
daripada terlalu sedikit
2.3.4 Data Conditioning

 Additional questions and considerations


 Apa sumber datanya? Bidang/fields target?
 Seberapa bersih datanya?
 Seberapa konsisten konten dan file? Missing
atau inconsistent values?
 Menilai konsistensi tipe data - numerik,
alfanumerik?
2.3.5 Survey and Visualize

 Leverage data visualization tools to gain an


overview of the data
 Shneiderman’s :
 “Overview, zoom dan filter, lalu perincian sesuai
permintaan”
 Ini memungkinkan pengguna untuk menemukan
bidang yang diminati, memperbesar, dan memfilter
untuk menemukan informasi lebih rinci tentang bidang
tertentu, kemudian menemukan data terperinci di
bidang itu
2.3.6 Common Tools
for Data Preparation
Hadoop dapat melakukan konsumsi dan
analisis paralel
2.4 Phase 3: Model Planning
Apakah saya memiliki ide
yang bagus tentang jenis
model untuk dicoba? Bisakah
saya memperbaiki rencana
analitik?
2.4 Phase 3: Model Planning

 Aktivitas
 Menilai struktur data - ini menentukan alat dan teknik analitik
untuk fase selanjutnya
 Pastikan teknik analitik memungkinkan tim untuk memenuhi
tujuan bisnis dan menerima atau menolak hipotesis kerja
 Tentukan apakah situasinya memerlukan model tunggal atau
serangkaian teknik sebagai bagian dari alur kerja analitik yang
lebih besar
2.4 Phase 3: Model Planning
Model Planning in Industry Verticals

 Contoh analis lain yang mendekati masalah serupa


2.4.1 Data Exploration
and Variable Selection
 Eksplorasi data untuk memahami hubungan antar
variabel untuk menginformasikan pemilihan variabel dan
metode
 Cara umum untuk melakukan ini adalah dengan
menggunakan alat visualisasi data
 Bertujuan untuk menangkap prediktor dan variabel yang
paling penting
 Ini sering membutuhkan iterasi dan pengujian untuk mengidentifikasi
variabel kunci
 Jika tim berencana untuk menjalankan analisis regresi,
identifikasi kandidat prediktor dan variabel hasil dari
model
2.4.2 Model Selection
 Tujuan utamanya adalah memilih teknik analisis, atau
beberapa kandidat, berdasarkan tujuan akhir proyek
 Tentukan apakah akan menggunakan teknik yang paling
cocok untuk data terstruktur, data tidak terstruktur, atau
pendekatan hybrid
 Tim sering membuat model awal menggunakan paket
perangkat lunak statistik seperti R, SAS, atau Matlab
 Yang mungkin memiliki keterbatasan ketika diterapkan pada dataset yang
sangat besar
 Tim bergerak ke fase pembangunan model setelah
memiliki ide bagus tentang jenis model yang akan dicoba
2.4.3 Common Tools for
the Model Planning Phase

 R has a complete set of modeling capabilities


 R contains about 5000 packages for data analysis and graphical presentation
 SQL Analysis services can perform in-database analytics of
common data mining functions, involved aggregations, and basic
predictive models
 SAS/ACCESS provides integration between SAS and the analytics
sandbox via multiple data connections
2.5 Phase 4: Model Building

Apakah
modelnya cukup
kuat?
2.5 Phase 4: Model Building

 Jalankan model yang didefinisikan dalam Phase 3


 Kembangkan set data untuk pelatihan, pengujian, dan produksi
 Kembangkan model analitik pada data pelatihan, tes pada data uji
 Pertanyaan untuk dipertimbangkan
 Apakah model valid dan akurat pada data uji?
 Apakah output model masuk akal bagi para pakar domain?
 Apakah nilai parameter masuk akal dalam konteks domain?
 Apakah model cukup akurat untuk memenuhi tujuan?
 Apakah model menghindari kesalahan yang tidak dapat ditolerir?
 Apakah dibutuhkan lebih banyak data atau input?
 Akankah model yang dipilih mendukung lingkungan runtime?
 Apakah diperlukan bentuk model yang berbeda untuk mengatasi masalah bisnis?
2.5.1 Common Tools for
the Model Building Phase

 Commercial Tools
 SAS Enterprise Miner – built for enterprise-level computing and analytics
 SPSS Modeler (IBM) – provides enterprise-level computing and analytics
 Matlab – high-level language for data analytics, algorithms, data exploration
 Alpine Miner – provides GUI frontend for backend analytics tools
 STATISTICA and MATHEMATICA – popular data mining and analytics tools
 Free or Open Source Tools
 R and PL/R - PL/R is a procedural language for PostgreSQL with R
 Octave – language for computational modeling
 WEKA – data mining software package with analytic workbench
 Python – language providing toolkits for machine learning and analysis
 SQL – in-database implementations provide an alternative tool (see Chap 11)
2.6 Phase 5: Communicate Results
2.6 Phase 5: Communicate Results

 Tentukan apakah tim berhasil atau gagal dalam tujuannya


 Nilai jika hasilnya signifikan secara statistik dan valid
 Jika demikian, identifikasi aspek-aspek hasil yang menyajikan
temuan yang menonjol
 Identifikasi hasil yang mengejutkan dan yang sesuai dengan
hipotesis
 Komunikasikan dan dokumentasikan temuan utama dan
wawasan utama yang diperoleh dari analisis
 Ini adalah bagian proses yang paling terlihat bagi para pemangku
kepentingan dan sponsor luar
2.7 Phase 6: Operationalize
2.7 Phase 6: Operationalize
 Pada fase terakhir ini, tim mengkomunikasikan manfaat proyek
secara lebih luas dan membuat proyek percontohan untuk
menyebarkan pekerjaan dengan cara yang terkendali.
 Risiko dikelola secara efektif dengan melakukan lingkup kecil,
penempatan pilot sebelum peluncuran skala besar
 Selama proyek uji coba, tim mungkin perlu mengeksekusi algoritma
lebih efisien dalam database daripada dengan alat dalam-memori
seperti R, terutama dengan set data yang lebih besar
 Untuk menguji model dalam pengaturan langsung, pertimbangkan
menjalankan model dalam lingkungan produksi untuk satu set produk
terpisah atau satu lini bisnis
 Monitor akurasi model dan latih kembali model jika perlu
2.7 Phase 6: Operationalize
Key outputs from successful analytics project
2.8 Case Study: Global
Innovation Network and Analysis
(GINA)
 Pada 2012 direktur baru EMC ingin meningkatkan
keterlibatan karyawan perusahaan di seluruh
pusat keunggulan global (GCE) untuk mendorong
inovasi, penelitian, dan kemitraan universitas
 Proyek ini dibuat untuk diselesaikan
 Menyimpan data formal dan informal
 Track research dari teknologi global
 Tambang data untuk pola dan wawasan untuk
meningkatkan operasi dan strategi tim
2.8.1 Phase 1: Discovery

 Team members and roles


 Business user, project sponsor, project manager
– Vice President from Office of CTO
 BI analyst – person from IT
 Data engineer and DBA – people from IT
 Data scientist – distinguished engineer
2.8.1 Phase 1: Discovery
 Data terbagi dalam dua kategori
 Lima tahun pengajuan ide dari kontes inovasi internal
 Risalah dan catatan yang mewakili inovasi dan
kegiatan penelitian dari seluruh dunia
 Hipotesis dikelompokkan menjadi dua kategori
 Analisis deskriptif tentang apa yang terjadi untuk
memicu kreativitas lebih lanjut, kolaborasi, dan
generasi aset
 Analitik prediktif untuk memberi saran kepada
manajemen eksekutif tentang di mana ia seharusnya
berinvestasi di masa depan
2.8.2 Phase 2: Data Preparation
 Ditemukan bahwa data tertentu memerlukan
pengkondisian dan normalisasi dan bahwa missing
datasets sangat penting
 Tim mengakui bahwa data berkualitas buruk dapat
memengaruhi langkah-langkah selanjutnya
 Mereka menemukan banyak nama yang salah eja
dan bermasalah dengan ruang ekstra
 Masalah-masalah yang tampaknya kecil ini harus
diatasi
2.8.3 Phase 3: Model Planning
 Bandingkan waktu dan hasil menggunakan beberapa
metode berbeda
2.8.4 Phase 4: Model Building

 Beberapa metode analitik digunakan


 NLP pada deskripsi tekstual
 Analisis jaringan sosial menggunakan R dan
Rstudio
 Grafik dan visualisasi sosial yang
dikembangkan
2.8.4 Phase 4: Model Building
Social graph of data submitters and finalists
2.8.4 Phase 4: Model Building
Social graph of top innovation influencers
2.8.5 Phase 5: Communicate
Results

 Studi berhasil mengidentifikasi inovator


tersembunyi
 Ditemukan inovator dengan kepadatan tinggi
di Cork, Irlandia
 Kantor CTO meluncurkan studi longitudinal
2.8.6 Phase 6: Operationalize

 Deployment was not really discussed


 Key findings
 Need more data in future
 Some data were sensitive
 A parallel initiative needs to be created to
improve basic BI activities
 A mechanism is needed to continually
reevaluate the model after deployment
2.8.6 Phase 6: Operationalize
STUDI KASUS II

Kelulusan Mahasiswa di Universitas Suka Belajar


Dataset: datakelulusanmahasiswa.xls

46
CRISP-DM

47
DISCOVERY
DISCOVERY
Business User/Business Understanding

 Problems:
 Budi adalah Rektor di Universitas Suka Belajar
 Universitas Suka Belajar memiliki masalah besar karena rasio
kelulusan mahasiswa tiap angkatan sangat rendah
 Budi ingin memahami dan membuat pola dari profile mahasiswa
yang bisa lulus tepat waktu dan yang tidak lulus tepat waktu
 Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan
memberi peringatan dini kepada mahasiswa kemungkinan tidak
lulus tepat waktu untuk memperbaiki diri, sehingga akhirnya bisa
lulus tepat waktu
 Objective:
 Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak
DISCOVERY
Identifying Potential Data Sources/Data Understanding

 Untuk menyelesaikan masalah, Budi mengambil data dari sistem


informasi akademik di universitasnya
 Data-data dikumpulkan dari data profil mahasiswa dan indeks prestasi
semester mahasiswa, dengan atribut seperti di bawah
1. NAMA
2. JENIS KELAMIN: Laki-Laki atau Perempuan
3. STATUS MAHASISWA: Mahasiswa atau Bekerja
4. UMUR:
5. STATUS NIKAH: Menikah atau Belum Menikah
6. IPS 1: Indeks Prestasi Semester 1
7. IPS 2: Indeks Prestasi Semester 1
8. IPS 3: Indeks Prestasi Semester 1
9. IPS 4: Indeks Prestasi Semester 1
10. IPS 5: Indeks Prestasi Semester 1
11. IPS 6: Indeks Prestasi Semester 1
12. IPS 7: Indeks Prestasi Semester 1
13. IPS 8: Indeks Prestasi Semester 1
14. IPK: Indeks Prestasi Kumulatif
15. STATUS KELULUSAN: Terlambat atau Tepat
3. Data Preparation
 Data set: datakelulusanmahasiswa.xls

51
3. Data Preparation
 Terdapat 379 data mahasiswa dengan 15 atribut
 Missing Value sebayak 10 data, dan tidak terdapat data noise

52
3. Data Preparation
 Missing Value dipecahkan dengan menambahkan
data dengan nilai rata-rata
 Hasilnya adalah data bersih tanpa missing value
4. Modeling
 Modelkan dataset dengan Decision Tree
 Pola yang dihasilkan bisa berbentuk tree atau
if-then
4. Modeling
 Hasil pola dari data berupa berupa decision tree (pohon keputusan)

55
5. Evaluation
 Hasil pola dari data berupa berupa peraturan if-then

56
5. Evaluation

 Atribut atau faktor yang paling


berpengaruh adalah Status Mahasiswa,
IPS2, IPS5, IPS1

 Atribut atau faktor yang tidak


berpengaruh adalah Nama, Jenis
Kelamin, Umur, IPS6. IPS7, IPS8
57
6. Deployment

 Budi membuat program peningkatan disiplin dan pendampingan ke mahasiswa di


semester awal (1-2) dan semester 5, karena faktor yang paling menentukan
kelulusan mahasiswa ada di dua semester itu
 Budi membuat peraturan melarang mahasiswa bekerja paruh waktu di semester
awal perkuliahan, karena beresiko tinggi di kelulusan tepat waktu

 Budi membuat program kerja paruh waktu di dalam kampus, sehingga banyak
pekerjaan kampus yang bisa intens ditangani, sambil mendidik mahasiswa supaya
memiliki pengalaman kerja. Dan yang paling penting mahasiswa tidak meninggalkan
kuliah karena pekerjaan
 Budi memasukkan pola dan model yang terbentuk ke dalam sistem informasi
kademik, dimana sistem dibuat cerdas, sehingga bisa mengirimkan email analisis
pola secara otomatis ke mahasiswa sesuai profilnya
Exercises: Solve Problem Organization

 Analisis masalah dan kebutuhan yang ada di organisasi lingkungan sekitar


anda
 Kumpulkan dan review dataset yang tersedia, dan hubungkan masalah
kebutuhan tadi dengan data yang tersedia (analisis menggunakan metode
supervised learning)
 Bila memungkinkan pilih beberapa peran sekaligus untuk mengolah

data tersebut, misalnya: lakukan clasification, sekaligus prediksi atau


forcasting
 Lakukan proses CRISP-DM untuk menyelesaikan masalah yang ada di
organisasi sesuai dengan data yang didapatkan
 Pada proses data preparation, lakukan data cleaning (replace missing

value, replace, filter attribute) sehingga data siap dimodelkan


 Lakukan juga komparasi algoritma untuk memilih algoritma terbaik jika

ingin melihat hasil dari algoritma lain.


 Rangkumkan dalam bentuk slide dengan contoh studi kasus kelulusan
mahasiswa menggunakan data mining
Summary

 The Data Analytics Lifecycle is an approach


to managing and executing analytic projects
 Lifecycle has six phases
 Bulk of the time usually spent on
preparation – phases 1 and 2
 Seven roles needed for a data science team
 Review the exercises
Focus of Course

 Focus on quantitative disciplines – e.g., math,


statistics, machine learning
 Provide overview of Big Data analytics
 In-depth study of a several key algorithms

Anda mungkin juga menyukai