Anda di halaman 1dari 94

Certified in Digital Data Science & Analytics

Learning Guideline

Tharisa Antya Perdani, S.S.I.,CertDA


August, 21st - 25th 2023 1
Download Materi (Kecuali Folder Installer)

https://s.id/CertDAPandaan
*Folder installer akan digunakan pada hari ketiga 2
Welcome to ACCA CertDA!

• The ACCA Certificate in Data Analytics (CertDA) adalah sertifikasi yang dibuat oleh induk
akuntan seluruh dunia, ACCA, yang fokus pada penyelesaian masalah terkait data
analytics di dunia profesional.
• Peserta diminta untuk dapat mengelola data hingga menjadi informasi dengan
mempertimbangkan proses bisnis hingga etika dalam setiap pekerjaan yang ada.

3
Course Content

4
Agenda

5
Pertanyaan Singkat:
Apa yang Bapak/Ibu ketahui
tentang Data Science?
Pengertian Data Science

• Data Science adalah ilmu multidisiplin yang melibatkan matematika, statistika,


dan pemrograman untuk mengolah data menjadi informasi.
• Bahasa lain dari Data Science adalah Data Mining dan Data Analytic.

7
Siapa Saja yang Butuh Data Science?

8
Hubungan antara Data Science, Big Data, dan Data Science

9
Data Science vs Business Intelligence

10
Apa itu CRISP-DM?
Apa itu CRISP-DM?
• The CRoss Industry Standard Process for
Data Mining atau CRISP-DM adalah
metodologi standar data science yang
digunakan dalam dunia industri.
• CRISP-DM sesungguhnya adalah
metodologi riset, sehingga tidak ada
bedanya melakukan riset dengan
melakukan teknis data science.
• Secara umum, ada 6 tahap yang dilakukan
dalam CRISP-DM seperti yang tergambar
pada gambar di sebelah kiri.

12
Business Understanding
• Tahap ini sangat penting dalam data
science sebagai pangkal dari semua proses
yang ada.
• Kata kunci dari proses ini adalah
menyelesaikan problem bisnis dengan
bantuan data science.
• Contoh:
• Meningkatkan profit.
• Mencegah fraud.
• Pencegahan kerusakan alat.

13
Data Understanding
• Tujuan dari step ini adalah mengambil dan
melakukan eksplorasi terhadap data yang
diidentifikasi berdasarkan business case
study.
• Ada 3 step dari bagian ini:
• Data Acquisition
• Mengambil data dari sumber yang
telah ditentukan
• Output: Data Acquisition Report
• Data Description
• Menampilkan pemeriksaan data
yang belum sempurna
• Output: Data Quality Report
• Data Exploration
• Penggunaan statistika dan teknik
visualisasi untuk menggali kelayakan
data untuk analisis. 14
Data Understanding - Data Exploration
• Ada beberapa hal penting yang dilakukan
pada step ini:
• Melakukan agregat dasar (ukuran
terpusat seperti mean, median, modus,
etc.)
• Distribusi data
• Korelasi

15
Data Preparation
• Tujuan dari step ini adalah memastikan data yang
digunakan benar dan memiliki struktur yang tepat
untuk menciptakan model yang bekerja secara efektif.
• Beberapa bagian pada step ini:
• Data Selection
• Memilih data yang relevan digunakan untuk
mengembangkan model dari step Data
Understanding
• Data Cleaning
• Menghilangkan missing value dan data kotor
• Data Integration
• Menggabungkan dua atau lebih tabel menjadi
satu tabel untuk memudahkan pemodelan
• Feature Engineering
• Mengubah bentuk feature supaya kapabilitas
model meningkat (langkah ini opsional)

16
Menghilangkan Missing Value dan Outlier Value

• Missing value dan outlier yang tidak diinginkan dalam data training sering
mengurangi akurasi model atau mengarah ke model yang bias dan mengarah
pada prediksi yang tidak akurat.
• Jadi, penting untuk memperlakukan nilai-nilai yang hilang dan outlier dengan
baik.
• Lihatlah snapshot di bawah ini dengan hati-hati (cek slide berikutnya):
• Dengan adanya missing value, peluang bermain kriket oleh perempuan sama
dengan laki-laki.
• Namun, jika melihat tabel kedua (setelah perlakuan nilai yang hilang
berdasarkan sapaan nama, “Nona”), kita dapat melihat bahwa perempuan
memiliki peluang lebih tinggi untuk bermain kriket dibandingkan dengan
laki-laki.

17
Contoh: Menghilangkan Missing Value dan Outlier Value

18
Menangani Missing Value dan Outlier Value

• Ada beberapa metode untuk menangani nilai yang hilang dan outlier:
• Missing Value:
• Dalam kasus variabel continuous, Anda dapat menghubungkan nilai yang
hilang dengan rata-rata, median, modus.
• Untuk variabel categorical, Anda dapat memperlakukan variabel sebagai
kelas terpisah.
• Anda juga dapat membuat model untuk memprediksi nilai yang hilang
menggunakan machine learning.
• Outlier
• Anda dapat menghapus record, melakukan transformasi (mengubah skala
data), atau Anda juga dapat memperlakukan nilai outlier secara terpisah.

19
Modelling
• Sebuah teknik untuk membuat
pemahaman yang tergeneralisir dan presisi
terhadap data.
• Seringkali dikaitkan dengan mencari
bentuk/pattern dari kumpulan data.

20
Evaluation
• Melakukan verifikasi terhadap veracity
(apakah model sudah reliabel) dari model
yang telah dibuat.
• Tujuan dari tahap ini adalah menjawab
hipotesis pada tahap Business
Understanding.

21
Deployment
• Mengimplementasikan model pada
berbagai jenis produk dilakukan pada
tahap ini.
• Bentuk implementasi yang dapat
dilakukan seperti:
• Program: Siri, Alexa
• Rumus baru: Rumus harga BBM

22
Big Data Analytic
Pengertian Dasar

● Big Data adalah pemrosesan data yang tidak lagi dapat menggunakan perangkat
konvensional.
● Pemrosesan ini bertujuan untuk mencari informasi dari berbagai sumber data
dalam ukuran besar serta berbeda-beda bentuk.

24
Karakteristik Big Data - 3V

● 3V pada Big Data berarti:


○ Volume: reliabilitas
○ Variety: relevansi
○ Velocity: ketepatan waktu
● Ada satu bagian lagi yang kadang
ditambahkan pada sifat 3V yaitu
Veracity (isu skeptis terkait
penggunaan big data).

25
Pengertian Dasar

● Big Data adalah pemrosesan data yang tidak lagi dapat menggunakan perangkat
konvensional.
● Pemrosesan ini bertujuan untuk mencari informasi dari berbagai sumber data
dalam ukuran besar serta berbeda-beda bentuk.

26
Tools Umum yang Digunakan

● SQL (Standard Query Language)


○ Bahasa operasional untuk database pada umumnya.
● HDFS (Hadoop File Distributed System)
○ Media penyimpanan big data dalam Hadoop.
● MapReduce
○ Operasi untuk pemrosesan big data dalam Hadoop.
● Hive
○ SQL untuk HDFS (SQL untuk big data).
● Pig
○ Hive namun versi scripting language.
● HBase
○ NoSQL database dalam Hadoop.
● Drill
27
○ Pengembang environment sistem big data.
Source of Data
Sumber Data

● Sumber data dapat berupa data internal dan eksternal


● Data internal adalah data yang bisa didapat dari dalam organisasi
○ Contoh: Data Warehouse, data aplikasi, dan database tiap divisi
● Data eksternal adalah data yang didapatkan dari luar organisasi
○ Contoh: Data dari bursa saham, prakiraan cuaca, dan berita online.

29
Type of Analytic
Types of Analytic (Definition)

31
Istilah Umum dalam Analytic

● Population vs Sample
● Parameter vs Statistic
● Variable vs Constant
● Independent vs Dependent Variable
● Descriptive vs Inferential Statistic

32
Istilah Umum: Population vs Sample

● Population adalah total dari elemen


○ Contoh: Mahasiswa Fakultas X
● Sample adalah representasi dari
populasi
○ Contoh: 30 orang Mahasiswa
Fakultas X

33
Istilah Umum : Parameter vs Statistic

● Parameter adalah pengukuran


deskriptif dari populasi
○ Contoh: Mean IPK Mahasiswa
Fakultas X
● Statistics adalah pengukuran
deskriptif dari sampel
○ Contoh: Mean 30 orang IPK
mahasiswa Fakultas X

34
Istilah Umum: Variable vs Constant

● Variable adalah karakteristik yang dapat diambil dari nilai berbeda pada anggota
berbeda dari grup yang diteliti.
○ Contoh: Usia dan IPK
● Constant adalah nilai yang sama diterapkan pada semua anggota dari grup yang
diteliti.
○ Contoh: Nama Fakultas

35
Istilah Umum: Independent vs Dependent Variable

● Independent variable adalah variabel yang dapat diuji secara bebas dan memiliki
dampak terhadap dependent variable.
• Contoh: Dalam mengetahui curah hujan, independent variable adalah
kelembapan, suhu, dan intensitas sinar matahari.
● Dependent variable adalah variabel yang diuji dalam sebuah eksperimen.
• Contoh: Dalam mengetahui curah hujan, jelas bahwa dependent variable
adalah curah hujan.

36
Istilah Umum: Descriptive Statistic vs Inferential Statistic

● Descriptive statistic adalah cara-cara yang dilakukan untuk menjelaskan sampel.


• Contoh: Hampir semua hal pada kehidupan sehari-hari, misal mencari dampak
terhadap subsidi ekonomi bagi masyarakat kurang mampu.
● Inferential statistic adalah cara-cara yang dilakukan untuk menjelaskan populasi
melalui pengukuran pada sampel tertentu.
• Contoh: Quick count pemilu, yang mana tidak semua kotak suara dihitung
namun sudah dapat memprediksi berapa perolehan total secara nasional.

37
Jenis Data

● Discrete
● Continuous
● Nominal
● Ordinal

38
Jenis Data: Discrete

• Data yang nilainya adalah bilangan asli, bukan berupa pecahan angka.
• Misal: ata berat badan mahasiswa jurusan komunikasi atau data jumlah kendaraan
di Jakarta.

39
Jenis Data: Continuous

● Data continuous adalah jenis data yang memiliki nilai berkelanjutan dalam skala
tertentu, sehingga peneliti dapat mengambil nilai di antara dua titik dalam
rentang tertentu.
● Data kontinu tidak terbatas pada bilangan bulat, melainkan mencakup bilangan
desimal
○ Contoh:
■ Tinggi badan: 1.72 meter, 1.7233330 meter
■ Berat badan dari anak perempuan bisa jadi 54 kgs, atau 54.5 kgs, atau
54.5436kgs.

40
Jenis Data: Nominal

• Data nominal adalah data yang diberikan pada objek atau kategori, yang tidak
memberikan informasi mengenai kedudukan objek tersebut, tetapi hanya
berfungsi sebagai label atau kode.
• Data ini memiliki sifat yang independen atau tidak berhubungan satu sama lain.
• Contoh: laki-laki dan perempuan

41
Jenis Data: Ordinal

• Data ordinal adalah jenis data yang menggunakan label variabel untuk
menyatakan perbandingan suatu data dengan tanpa memiliki nilai intrinsik di
dalam data tersebut.
• Contoh: Label variabel seperti “sangat puas”, “puas” dan “tidak puas”.

42
Descriptive Statistic

● Measure of Central Tendency


● Quartile
● Percentile
● Dispersion

43
Mean

• Mean adalah suatu bilangan yang mewakili keseluruhan data pengamatan.

44
Median

• Median adalah nilai tengah suatu kumpulan data.

45
Modus

• Modus adalah nilai yang sering muncul dalam suatu kumpulan data.

46
Quartile

• Quartile nilai yang membagi data yang berurutan menjadi empat bagian yang
sama banyak.
• Karena data terbagi menjadi empat bagian yang sama, artinya terdapat tiga nilai
kuartil, yaitu kuartil bawah (Q1), kuartil tengah (Q2), dan kuartil atas (Q3).

47
Measures of Variation: Deviation Score dan Mean Deviation

• Deviation Score adalah perbedaan antara pengamatan atau nilai x dan nilai
rata-rata (yaitu, x – mean) dalam satu set data

• Mean Deviation (simpangan rata-rata) adalah rata-rata jarak antara nilai-nilai data
menuju rata-ratanya.
• Kegunaannya adalah untuk mengetahui seberapa jauh nilai data menyimpang
dari rata-ratanya.

48
Measures of Variation: Variance

• Variance adalah ukuran seberapa jauh sebuah kumpulan bilangan tersebar.


• Varians nol mengindikasikan bahwa semua nilai sama.

49
Measures of Variation: Standard Deviation

• Standard Deviation adalah ukuran penyebaran yang paling baik, karena


menggambarkan besarnya penyebaran tiap-tiap unit observasi.
• Adapun fungsi standar deviasi adalah untuk menentukan seberapa dekat data dari
sampel statistik dengan data rata-rata data tersebut.

50
Dampak dari Variasi

• Kumpulan data 12, 12, 12, 12, 12 memiliki var = nol (angkanya identik).
• Kumpulan data 12, 12, 12, 12, 13 memiliki var = 0,167; perubahan kecil dalam angka
sama dengan var yang sangat kecil.
• Kumpulan data 12, 12, 12, 12, 13.013 memiliki var = 28171000; perubahan besar
dalam angka sama dengan jumlah yang sangat besar.

51
Covariance & Correlation

• Ukuran korelasi antara 2 variabel dapat menggunakan covariance atau correlation.


• Covariance :
○ Nilai yang dihasilkan dari -∞ sampai +∞.
• Correlation :
○ Bentuk normal dari covariance, sehingga lebih banyak dipakai karena ukuran
yang jelas.
○ Nilai yang dihasilkan antara +1 hingga -1.
○ Korelasi kuat berkisar antara 0,6 hingga 1 dan -0,6 hingga -1.
○ Angka 0 menunjukkan tidak ada korelasi.

52
Tipe Distribusi Data

• Uniform Distribution
• Normal Distribution

53
Uniform Distribution

• Saat Anda melempar dadu yang adil, hasilnya adalah 1 sampai 6.


• Probabilitas mendapatkan hasil ini sama-sama mungkin dan itu adalah dasar dari
distribusi yang seragam.
• Semua n jumlah hasil yang mungkin dari distribusi seragam memiliki
kemungkinan yang sama.
• Suatu variabel X dikatakan terdistribusi merata jika fungsinya adalah:

54
Uniform Distribution

55
Normal Distribution

• Distribusi normal mewakili perilaku sebagian besar situasi di alam semesta.


• Jumlah besar variabel acak (kecil) seringkali ternyata terdistribusi secara normal,
berkontribusi pada penerapannya secara luas.
• Distribusi apa pun dikenal sebagai distribusi Normal jika memiliki karakteristik
sebagai berikut:
○ Rata-rata, median, dan modus distribusi bertepatan.
○ Kurva distribusi berbentuk lonceng dan simetris terhadap garis x=μ.
○ Luas total di bawah kurva adalah 1.
○ Tepat setengah dari nilai berada di kiri tengah dan separuh lainnya di kanan.

56
Normal Distribution: Mean vs Median

57
Standard Normal Distribution

58
Teknik Machine Learning pada Predictive Analytics

59
Train and Test Data

60
Regression Analysis

• Analisis regresi secara matematis menggambarkan hubungan antara sekumpulan


variabel independen dan variabel dependen.
• Gunakan regresi untuk dua tujuan utama:
• Untuk memahami hubungan antara variabel-variabel tersebut.
• Bagaimana perubahan variabel independen berhubungan dengan
perubahan variabel dependen?
• Untuk memprediksi variabel dependen dengan memasukkan nilai variabel
independen ke dalam persamaan regresi.

61
Contoh Regression Analysis

• Misalkan seorang peneliti mempelajari hubungan antara watt dan output dari bola lampu.
• Pada penelitian ini output cahaya merupakan variabel dependen karena bergantung
pada watt.
• Watt adalah variabel independen.
• Setelah melakukan analisis regresi, peneliti akan memahami sifat hubungan antara
kedua variabel tersebut.
• Apakah hubungan ini signifikan secara statistik?
• Apa pengaruh watt terhadap keluaran cahaya?
• Untuk watt tertentu, berapa banyak keluaran cahaya yang diprediksi oleh model?
• Secara khusus, persamaan regresi menggambarkan perubahan rata-rata keluaran
cahaya untuk setiap kenaikan satu watt.
• Nilai-P menunjukkan apakah hubungan tersebut signifikan secara statistik.
• Dan, peneliti dapat memasukkan nilai wattage ke dalam persamaan untuk memprediksi
keluaran cahaya.

62
Linear Regression

• Linear regression sebagai bagian dari regression analysis bertujuan tunk


memahami perubahan rata-rata dalam variabel dependen diberikan perubahan
satu unit di setiap variabel independen.
• Linear regression juga dikenal sebagai Ordinary Least Square (OLS) dan kuadrat
terkecil linier.

63
Rumus Linear Regression

• Analisis ini memperkirakan parameter dengan meminimalkan jumlah kesalahan


kuadrat (SSE).
• Jika Anda memiliki variabel dependen kontinu, regresi linier mungkin adalah tipe
pertama yang harus Anda pertimbangkan.
• Rumus regresi linier adalah :

• ŷ is the value we are predicting.


• n is the number of features of our data points.
• xi is the value of the ith feature.
• Θi are the parameters of the model, where Θ0 is the bias term. All the other
parameters are the weights for the features of our data.
64
Contoh Linear Regression

• Jika kita ingin menggunakan regresi linier untuk memprediksi harga sebuah
rumah, gunakan 2 feature; permukaan rumah dalam meter persegi dan jumlah
kamar tidur, rumus khusus akan terlihat seperti ini:

65
Kalkulasi Manual dari Linear Regression

1. Hitung rata-rata variabel X Anda.


2. Hitung selisih antara setiap X dan rata-rata X.
3. Kuadratkan perbedaannya dan jumlahkan semuanya, jadilah SSxx.
4. Hitung rata-rata variabel Y Anda.
5. Kalikan selisihnya (dari X dan Y dari rata-rata masing-masing) dan jumlahkan
semuanya. Ini SSxy.
6. Menggunakan SSxx dan SSxy, Anda menghitung intersep dengan mengurangkan
SSxx / SSxy * AVG(X) dari AVG(Y).

66
Kalkulasi Manual dari Linear Regression

67
Kalkulasi Manual dari Linear Regression

• Lakukan penjumlahan adalah SSxx dan SSxy (masing-masing).


• Untuk menghitung koefisien regresi, bagi kovarians X dan Y (SSxy) dengan varians
dalam X (SSxx)
• Slope= SSxy / SSxx = 2153428833,33 / 202729166,67 = 10,62219546
• Intercept adalah nilai "ekstra" yang dibutuhkan model untuk menutupi kasus
rata-rata.
• Intercept= AVG(Y) – Slope* AVG(X)
• Maka intercept= 70870,33 – 10,62219546 * 6541,67 = 1.383,471380
• Sekarang, persamaan regresi linier sederhana kita adalah:
• Y = 1.383,471380 + 10,62219546 * X

68
R-Squared

• R-squared adalah ukuran statistik seberapa dekat data dengan garis regresi yang
dipasang.
• Sering dikenal sebagai koefisien determinasi, atau koefisien determinasi berganda
untuk regresi berganda.
• R-squared adalah persentase variasi variabel respon yang dijelaskan oleh model
linier, selalu antara 0 dan 100%.
• Secara umum, semakin tinggi R-squared, semakin baik model tersebut sesuai
dengan data Anda.

69
Adjusted R-squared

• Gunakan Adjusted R-squared untuk membandingkan hasil model regresi yang


mengandung jumlah variabel bebas yang berbeda.
• Katakanlah Anda membandingkan model dengan lima variabel independen
dengan model dengan satu variabel dan model lima variabel memiliki R-kuadrat
yang lebih tinggi.
• Apakah model dengan lima variabel sebenarnya merupakan model yang lebih
baik, atau hanya memiliki lebih banyak variabel?
• Untuk menentukan ini, bandingkan saja nilai Adjusted R-squared
• Adjusted R-squared akan menyesuaikan jumlah variabel dalam model.
• Yang penting, nilainya meningkat hanya ketika variabel baru meningkatkan
kecocokan model lebih dari yang diharapkan secara kebetulan saja.

70
R-Squared, Adjusted R-Squared, and Sum of Squares

71
Praktik dengan Excel untuk Linear Regression

• Buka Weather trends sales predictor.xlsx

72
Praktik dengan Excel untuk Linear Regression

• Lakukan Regression seperti berikut ini:

73
Hasil Praktik dengan Excel untuk Linear Regression

74
Penjelasan Praktik dengan Excel untuk Linear Regression

• Dari hasil antara X dan Y, maka analisis ini terbilang signifikan dengan alasan:
• Adjusted R Squared mendekati 1 (nilai 0,95).
• Significance F dibawah 5% atau 0,05.
• Semua P-Value dibawah 5% atau 0,05.
• Maka dapat disimpulkan bahwa rumus dari persamaan ini adalah:
Y = 588 - (30 x Number of wet days) - (20 x Temperature) + (20 x Hours of sunshine)

75
Praktik dengan Excel untuk Prescriptive Analytics

• Buka file GoalSeek.xlsx


• Jalankan setiap skenario yang ada.

76
Gunakan Solver pada Excel untuk Prescriptive Analytics

• Solver digunakan untuk transportation problem atau linear problem.


• Buka file MagicSquares.xlsx
• Jalankan setiap skenario yang ada.

77
Skenario Solver pada Excel untuk Prescriptive Analytics

78
Hasil Solver pada Excel untuk Prescriptive Analytics

79
Gunakan Solver pada Excel untuk Prescriptive Analytics

• Buka file TransportationProblem.xlsx


• Jalankan setiap skenario yang ada.

80
Skenario Solver pada Excel untuk Prescriptive Analytics

• Karena objective adalah minimum value, maka ada constraint yang diinginkan,
sehingga Simplex LP lebih cocok untuk kasus ini.

81
Gunakan Solver pada Excel untuk Prescriptive Analytics

• Kerjakan skenario pada LimitingFactorAnalysis.xlsx.

82
Skenario Solver pada Excel untuk Prescriptive Analytics

83
Gunakan Solver pada Excel untuk Prescriptive Analytics

• Kerjakan skenario pada RadioMast.xlsx.

84
Studi Kasus pada R dan Python

• Ikuti perintah instruktur terkait ini.

85
Data Visualization and
Communications
Tujuan dari Data Visualization

• Ingat 4 hal ini!

87
Keuntungan dari Data Visualization

• Ingat 4 hal ini!

88
Abacus Challenge

Berapa nilai yang ditunjukkan dari sempoa ini?

89
Perbandingan

• Static
• Tidak ada perbandingan waktu

• Dynamic
• Ada perbandingan waktu

90
Composition Chart

• Pie Chart

• Waterfall Chart

91
Relationship

• Scatter plot/scatter diagram

• Bubble Chart

92
Chart yang Baik

• Menurut Andy Kirk, chart yang baik adalah:


• Trustworthy
• Accessible
• Elegant
• Menurut Edward Tufte, chart yang terlalu banyak dekorasi yang tidak penting
disebut “chart junk”.
• Prinsip chart yang baik menurut Andy Kirk:

93
Thank You

94

Anda mungkin juga menyukai