Learning Guideline
https://s.id/CertDAPandaan
*Folder installer akan digunakan pada hari ketiga 2
Welcome to ACCA CertDA!
• The ACCA Certificate in Data Analytics (CertDA) adalah sertifikasi yang dibuat oleh induk
akuntan seluruh dunia, ACCA, yang fokus pada penyelesaian masalah terkait data
analytics di dunia profesional.
• Peserta diminta untuk dapat mengelola data hingga menjadi informasi dengan
mempertimbangkan proses bisnis hingga etika dalam setiap pekerjaan yang ada.
3
Course Content
4
Agenda
5
Pertanyaan Singkat:
Apa yang Bapak/Ibu ketahui
tentang Data Science?
Pengertian Data Science
7
Siapa Saja yang Butuh Data Science?
8
Hubungan antara Data Science, Big Data, dan Data Science
9
Data Science vs Business Intelligence
10
Apa itu CRISP-DM?
Apa itu CRISP-DM?
• The CRoss Industry Standard Process for
Data Mining atau CRISP-DM adalah
metodologi standar data science yang
digunakan dalam dunia industri.
• CRISP-DM sesungguhnya adalah
metodologi riset, sehingga tidak ada
bedanya melakukan riset dengan
melakukan teknis data science.
• Secara umum, ada 6 tahap yang dilakukan
dalam CRISP-DM seperti yang tergambar
pada gambar di sebelah kiri.
12
Business Understanding
• Tahap ini sangat penting dalam data
science sebagai pangkal dari semua proses
yang ada.
• Kata kunci dari proses ini adalah
menyelesaikan problem bisnis dengan
bantuan data science.
• Contoh:
• Meningkatkan profit.
• Mencegah fraud.
• Pencegahan kerusakan alat.
13
Data Understanding
• Tujuan dari step ini adalah mengambil dan
melakukan eksplorasi terhadap data yang
diidentifikasi berdasarkan business case
study.
• Ada 3 step dari bagian ini:
• Data Acquisition
• Mengambil data dari sumber yang
telah ditentukan
• Output: Data Acquisition Report
• Data Description
• Menampilkan pemeriksaan data
yang belum sempurna
• Output: Data Quality Report
• Data Exploration
• Penggunaan statistika dan teknik
visualisasi untuk menggali kelayakan
data untuk analisis. 14
Data Understanding - Data Exploration
• Ada beberapa hal penting yang dilakukan
pada step ini:
• Melakukan agregat dasar (ukuran
terpusat seperti mean, median, modus,
etc.)
• Distribusi data
• Korelasi
15
Data Preparation
• Tujuan dari step ini adalah memastikan data yang
digunakan benar dan memiliki struktur yang tepat
untuk menciptakan model yang bekerja secara efektif.
• Beberapa bagian pada step ini:
• Data Selection
• Memilih data yang relevan digunakan untuk
mengembangkan model dari step Data
Understanding
• Data Cleaning
• Menghilangkan missing value dan data kotor
• Data Integration
• Menggabungkan dua atau lebih tabel menjadi
satu tabel untuk memudahkan pemodelan
• Feature Engineering
• Mengubah bentuk feature supaya kapabilitas
model meningkat (langkah ini opsional)
16
Menghilangkan Missing Value dan Outlier Value
• Missing value dan outlier yang tidak diinginkan dalam data training sering
mengurangi akurasi model atau mengarah ke model yang bias dan mengarah
pada prediksi yang tidak akurat.
• Jadi, penting untuk memperlakukan nilai-nilai yang hilang dan outlier dengan
baik.
• Lihatlah snapshot di bawah ini dengan hati-hati (cek slide berikutnya):
• Dengan adanya missing value, peluang bermain kriket oleh perempuan sama
dengan laki-laki.
• Namun, jika melihat tabel kedua (setelah perlakuan nilai yang hilang
berdasarkan sapaan nama, “Nona”), kita dapat melihat bahwa perempuan
memiliki peluang lebih tinggi untuk bermain kriket dibandingkan dengan
laki-laki.
17
Contoh: Menghilangkan Missing Value dan Outlier Value
18
Menangani Missing Value dan Outlier Value
• Ada beberapa metode untuk menangani nilai yang hilang dan outlier:
• Missing Value:
• Dalam kasus variabel continuous, Anda dapat menghubungkan nilai yang
hilang dengan rata-rata, median, modus.
• Untuk variabel categorical, Anda dapat memperlakukan variabel sebagai
kelas terpisah.
• Anda juga dapat membuat model untuk memprediksi nilai yang hilang
menggunakan machine learning.
• Outlier
• Anda dapat menghapus record, melakukan transformasi (mengubah skala
data), atau Anda juga dapat memperlakukan nilai outlier secara terpisah.
19
Modelling
• Sebuah teknik untuk membuat
pemahaman yang tergeneralisir dan presisi
terhadap data.
• Seringkali dikaitkan dengan mencari
bentuk/pattern dari kumpulan data.
20
Evaluation
• Melakukan verifikasi terhadap veracity
(apakah model sudah reliabel) dari model
yang telah dibuat.
• Tujuan dari tahap ini adalah menjawab
hipotesis pada tahap Business
Understanding.
21
Deployment
• Mengimplementasikan model pada
berbagai jenis produk dilakukan pada
tahap ini.
• Bentuk implementasi yang dapat
dilakukan seperti:
• Program: Siri, Alexa
• Rumus baru: Rumus harga BBM
22
Big Data Analytic
Pengertian Dasar
● Big Data adalah pemrosesan data yang tidak lagi dapat menggunakan perangkat
konvensional.
● Pemrosesan ini bertujuan untuk mencari informasi dari berbagai sumber data
dalam ukuran besar serta berbeda-beda bentuk.
24
Karakteristik Big Data - 3V
25
Pengertian Dasar
● Big Data adalah pemrosesan data yang tidak lagi dapat menggunakan perangkat
konvensional.
● Pemrosesan ini bertujuan untuk mencari informasi dari berbagai sumber data
dalam ukuran besar serta berbeda-beda bentuk.
26
Tools Umum yang Digunakan
29
Type of Analytic
Types of Analytic (Definition)
31
Istilah Umum dalam Analytic
● Population vs Sample
● Parameter vs Statistic
● Variable vs Constant
● Independent vs Dependent Variable
● Descriptive vs Inferential Statistic
32
Istilah Umum: Population vs Sample
33
Istilah Umum : Parameter vs Statistic
34
Istilah Umum: Variable vs Constant
● Variable adalah karakteristik yang dapat diambil dari nilai berbeda pada anggota
berbeda dari grup yang diteliti.
○ Contoh: Usia dan IPK
● Constant adalah nilai yang sama diterapkan pada semua anggota dari grup yang
diteliti.
○ Contoh: Nama Fakultas
35
Istilah Umum: Independent vs Dependent Variable
● Independent variable adalah variabel yang dapat diuji secara bebas dan memiliki
dampak terhadap dependent variable.
• Contoh: Dalam mengetahui curah hujan, independent variable adalah
kelembapan, suhu, dan intensitas sinar matahari.
● Dependent variable adalah variabel yang diuji dalam sebuah eksperimen.
• Contoh: Dalam mengetahui curah hujan, jelas bahwa dependent variable
adalah curah hujan.
36
Istilah Umum: Descriptive Statistic vs Inferential Statistic
37
Jenis Data
● Discrete
● Continuous
● Nominal
● Ordinal
38
Jenis Data: Discrete
• Data yang nilainya adalah bilangan asli, bukan berupa pecahan angka.
• Misal: ata berat badan mahasiswa jurusan komunikasi atau data jumlah kendaraan
di Jakarta.
39
Jenis Data: Continuous
● Data continuous adalah jenis data yang memiliki nilai berkelanjutan dalam skala
tertentu, sehingga peneliti dapat mengambil nilai di antara dua titik dalam
rentang tertentu.
● Data kontinu tidak terbatas pada bilangan bulat, melainkan mencakup bilangan
desimal
○ Contoh:
■ Tinggi badan: 1.72 meter, 1.7233330 meter
■ Berat badan dari anak perempuan bisa jadi 54 kgs, atau 54.5 kgs, atau
54.5436kgs.
40
Jenis Data: Nominal
• Data nominal adalah data yang diberikan pada objek atau kategori, yang tidak
memberikan informasi mengenai kedudukan objek tersebut, tetapi hanya
berfungsi sebagai label atau kode.
• Data ini memiliki sifat yang independen atau tidak berhubungan satu sama lain.
• Contoh: laki-laki dan perempuan
41
Jenis Data: Ordinal
• Data ordinal adalah jenis data yang menggunakan label variabel untuk
menyatakan perbandingan suatu data dengan tanpa memiliki nilai intrinsik di
dalam data tersebut.
• Contoh: Label variabel seperti “sangat puas”, “puas” dan “tidak puas”.
42
Descriptive Statistic
43
Mean
44
Median
45
Modus
• Modus adalah nilai yang sering muncul dalam suatu kumpulan data.
46
Quartile
• Quartile nilai yang membagi data yang berurutan menjadi empat bagian yang
sama banyak.
• Karena data terbagi menjadi empat bagian yang sama, artinya terdapat tiga nilai
kuartil, yaitu kuartil bawah (Q1), kuartil tengah (Q2), dan kuartil atas (Q3).
47
Measures of Variation: Deviation Score dan Mean Deviation
• Deviation Score adalah perbedaan antara pengamatan atau nilai x dan nilai
rata-rata (yaitu, x – mean) dalam satu set data
• Mean Deviation (simpangan rata-rata) adalah rata-rata jarak antara nilai-nilai data
menuju rata-ratanya.
• Kegunaannya adalah untuk mengetahui seberapa jauh nilai data menyimpang
dari rata-ratanya.
48
Measures of Variation: Variance
49
Measures of Variation: Standard Deviation
50
Dampak dari Variasi
• Kumpulan data 12, 12, 12, 12, 12 memiliki var = nol (angkanya identik).
• Kumpulan data 12, 12, 12, 12, 13 memiliki var = 0,167; perubahan kecil dalam angka
sama dengan var yang sangat kecil.
• Kumpulan data 12, 12, 12, 12, 13.013 memiliki var = 28171000; perubahan besar
dalam angka sama dengan jumlah yang sangat besar.
51
Covariance & Correlation
52
Tipe Distribusi Data
• Uniform Distribution
• Normal Distribution
53
Uniform Distribution
54
Uniform Distribution
55
Normal Distribution
56
Normal Distribution: Mean vs Median
57
Standard Normal Distribution
58
Teknik Machine Learning pada Predictive Analytics
59
Train and Test Data
60
Regression Analysis
61
Contoh Regression Analysis
• Misalkan seorang peneliti mempelajari hubungan antara watt dan output dari bola lampu.
• Pada penelitian ini output cahaya merupakan variabel dependen karena bergantung
pada watt.
• Watt adalah variabel independen.
• Setelah melakukan analisis regresi, peneliti akan memahami sifat hubungan antara
kedua variabel tersebut.
• Apakah hubungan ini signifikan secara statistik?
• Apa pengaruh watt terhadap keluaran cahaya?
• Untuk watt tertentu, berapa banyak keluaran cahaya yang diprediksi oleh model?
• Secara khusus, persamaan regresi menggambarkan perubahan rata-rata keluaran
cahaya untuk setiap kenaikan satu watt.
• Nilai-P menunjukkan apakah hubungan tersebut signifikan secara statistik.
• Dan, peneliti dapat memasukkan nilai wattage ke dalam persamaan untuk memprediksi
keluaran cahaya.
62
Linear Regression
63
Rumus Linear Regression
• Jika kita ingin menggunakan regresi linier untuk memprediksi harga sebuah
rumah, gunakan 2 feature; permukaan rumah dalam meter persegi dan jumlah
kamar tidur, rumus khusus akan terlihat seperti ini:
65
Kalkulasi Manual dari Linear Regression
66
Kalkulasi Manual dari Linear Regression
67
Kalkulasi Manual dari Linear Regression
68
R-Squared
• R-squared adalah ukuran statistik seberapa dekat data dengan garis regresi yang
dipasang.
• Sering dikenal sebagai koefisien determinasi, atau koefisien determinasi berganda
untuk regresi berganda.
• R-squared adalah persentase variasi variabel respon yang dijelaskan oleh model
linier, selalu antara 0 dan 100%.
• Secara umum, semakin tinggi R-squared, semakin baik model tersebut sesuai
dengan data Anda.
69
Adjusted R-squared
70
R-Squared, Adjusted R-Squared, and Sum of Squares
71
Praktik dengan Excel untuk Linear Regression
72
Praktik dengan Excel untuk Linear Regression
73
Hasil Praktik dengan Excel untuk Linear Regression
74
Penjelasan Praktik dengan Excel untuk Linear Regression
• Dari hasil antara X dan Y, maka analisis ini terbilang signifikan dengan alasan:
• Adjusted R Squared mendekati 1 (nilai 0,95).
• Significance F dibawah 5% atau 0,05.
• Semua P-Value dibawah 5% atau 0,05.
• Maka dapat disimpulkan bahwa rumus dari persamaan ini adalah:
Y = 588 - (30 x Number of wet days) - (20 x Temperature) + (20 x Hours of sunshine)
75
Praktik dengan Excel untuk Prescriptive Analytics
76
Gunakan Solver pada Excel untuk Prescriptive Analytics
77
Skenario Solver pada Excel untuk Prescriptive Analytics
78
Hasil Solver pada Excel untuk Prescriptive Analytics
79
Gunakan Solver pada Excel untuk Prescriptive Analytics
80
Skenario Solver pada Excel untuk Prescriptive Analytics
• Karena objective adalah minimum value, maka ada constraint yang diinginkan,
sehingga Simplex LP lebih cocok untuk kasus ini.
81
Gunakan Solver pada Excel untuk Prescriptive Analytics
82
Skenario Solver pada Excel untuk Prescriptive Analytics
83
Gunakan Solver pada Excel untuk Prescriptive Analytics
84
Studi Kasus pada R dan Python
85
Data Visualization and
Communications
Tujuan dari Data Visualization
87
Keuntungan dari Data Visualization
88
Abacus Challenge
89
Perbandingan
• Static
• Tidak ada perbandingan waktu
• Dynamic
• Ada perbandingan waktu
90
Composition Chart
• Pie Chart
• Waterfall Chart
91
Relationship
• Bubble Chart
92
Chart yang Baik
93
Thank You
94