Anda di halaman 1dari 45

Excel for

Data Analytic

1
WARNING
Pastikan anda sudah
makan sebelum
mengikuti materi
ini!!!
Data Mining Lifecycle

▪ Business Understanding
▪ Data Understanding
▪ Data Preparation Yang akan kita
▪ Modeling banyak pelajari
▪ Evaluation
▪ Deployment

THE FAMOUS CRISP-DM

Central Transformation Office 3


Why Excel?
• Software yang paling sering digunakan di kantor:
Word, PowerPoints, dan Excel… dan Whatsapp
• Excel bisa memecahkan hampir semua permasalahan
yang dihadapi di kantor.
• Excel selain fungsi-fungsi dasar, juga bisa digunakan
sebagai pengolahan data analytics sederhana.
• Apapun yang dipelajari pada akhirya ke Excel juga….

Central Transformation Office 4


Central Transformation Office 5
Cover Slide

DataExploration and
Preparation

6
Data Understanding
1. Buka file Rodaku neraca perdagangan.xlsx.
2. Langkah pertama dalam pengolahan data adalah
memahami data, salah satunya dengan
mengetahui deskripsi data, contoh adalah
sebagai berikut:
Kolom Definisi Bentuk Data
date Tanggal disajikan per bulan Datetime - MMM-YY

nilai_export Nilai Export dalam jutaan USD float, numerik


usd_to_idr Nilai 1 USD dikonversi menjadi float, numerik
rupiah, kurs BI per akhir bulan
inflasi Nilai inflasi Indeks Harga float, numerik, percent
Konsumen yoy akumulasi
berdasarkan data BPS
oil_price Harga rerata bulanan float, numerik
Indonesian Crude Oil Price (ICP)
dalam USD
neraca_perdagan Surplus neraca perdagangan float, numerik
gan dalam miliar USD

Central Transformation Office 7


Data Cleansing > Imputation
Buka dataset Neraca Perdagangan Impute.xlsx

Value Imputation Time Series Imputation

Last Observation Carried


mode / most frequent (categorical)
Forward (LOCF)

Next Observation Carried


mean / median (numerical)
Backward (NOCB)

Random / defined value Rolling Statistics

Model based imputation Interpolation

Central Transformation Office 8


Central Transformation Office 9
Mengaktifkan Data Analysis Toolpak (1)

Excel Memiliki fungsi


bawaan yang tidak
langsung aktif yaitu
Data Analysis
Toolpack, yang dapat
kita gunakan dalam
kegiatan data
analytics.

Central Transformation Office 10


Mengaktifkan Data Analysis Toolpak (2)
Cara Memunculkan Data Analysis
• Klik Tab File - Options sehingga muncul jendela berikut
• Klik Add-ins - Excel Add-ins - Go
• Check Analysis Toolpak - OK

Central Transformation Office 11


Descriptive Analysis (1)
Untuk mengetahui gambaran mengenai ukuran pemusatan dan sebaran data

1
2

1. Buka dataset Neraca Perdagangan.xlsx


2. Click Data Analysis 4
3. Pilih Descriptive Statistic
4. Klik “OK”

1. Pilihan Input Range dari data yang mau dianalisis


2. Grouped By:
a. Columns 🡪 data dikelompokkan berdasarkan kolom seperti pada contoh
b. Rows 🡪 data dikelompokkan berdasarkan baris
Check Labels in First Row jika data mempunyai nama kolom seperti pada contoh
3. Output dari analisis dapat dipilih di Range tertentu, Worksheet baru, atau Workbook baru
4. Check Summary statistics untuk mendapatkan hasil dari Descriptive Statistics
Central Transformation Office 12
Descriptive Analysis (2)
untuk mengetahui gambaran mengenai ukuran pemusatan dan sebaran data
Hasil Descriptive Statistic: Glossary:
Parameter Deskripsi Fungsi Excel
Mean Mean adalah rata-rata dari suatu dataset. AVERAGE
STDEV.S/
Standar Error Perkiraan kesalahan dalam sampel Mean.
SQRT(COUNT)
Median Nilai tengah dari suatu dataset. MEDIAN
Mode/Modus Nilai yang paling sering muncul/umum dalam suatu MODE
dataset
Standar Deviation Ukuran dari variabilitas data dari mean STDEV.S
Sample Variance Kuadrat dari tandar deviasi VAR
Kurtosis Mengukur perbedaan ekor distribusi dari distribusi normal KURT
Mengukur ketidaksimetrisan distribusi dari distribusi
Skewness normal SKEW

Range Selisih antara nilai maksimum dan minimum dari dataset MAX-MIN
Minimum Nilai terkecil dari dataset MIN
Maximum Nilai terbesar dari dataset MAX
Sum Jumlah dari semua nilai dari dataset SUM
Count Jumlah row/tuple/nilai dari dataset COUNT

Central Transformation Office 13


Descriptive Analysis (3) – Penjelasan

standard deviation

kurtosis

skewness bias & variance

Central Transformation Office 14


Descriptive Analysis (4) – Distribusi Data
Visualisasi Data untuk mendapatkan gambaran distribusi data, misal: Oil Prices

1. Pilih Histogram di Data Analysis 3. Akan secara otomatis mengelompokkan ke Bin

2. Pilih Dataset missal kolom G, centang


4. Akan secara otomatis membuat distribusi dataset
Cumulative dan Chart Output
Central Transformation Office 15
Descriptive Analysis (5) - Korelasi
Korelasi antar variable makro dan neraca perdagangan

1. Pilihan Correlation di Data Analysis.


2. Pilih kolom yang akan dicari korelasinya,
korelasi ini hanya berlaku untuk angka.
3. Jangan lupa centang “Label in The First Row”.
4. Setelah jadi lakukan “conditional formatting>
color scales” agar bisa secara intuitif melihat
korelasi dengan lebih mudah.
5. Semakin mendekati 1 berarti korelasi positif
semakin kuat, semakin mendekati -1 berarti
korelasi negative semakin kuat.
6. Korelasi tidak sama dengan causation
(penyebab), meskipun memiliki korelasi yang
tinggi, dua variable belum tentu saling
terkait.

Central Transformation Office 16


Cover Slide

Supervised
Learning

17
Supervised Learning
• Pembelajaran dengan guru, data set memiliki
target/label/class
• Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised learning
• Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable
prediktor

Central Transformation Office 18


Regression vs Classification
Regression Classification
Digunakan untuk Digunakan untuk
memprediksi data memprediksi label diskret
continuos (continuos pada suatu kelas (discrete
quantity) class label)
Regresi dengan multiple Klasifikasi dengan 2 label
input biasa disebut kelas disebut binary dan
multivariate regression lebih dari 2 kelas disebut
dengan multi-class
Scoring yang umum Scoring yang umum
digunakan : RMSE, R2, digunakan :
MAE, MAPE Accuracy, F1-score, ROC-
AUC
Contoh : prediksi harga Contoh : fraud-detection,
rumah, prediksi GDP, email spam filter,image
prediksi pertumbuhan classification.
penduduk.
Central Transformation Office 19
Multivariate
Regression
Regresi
Analisis Regresi adalah Teknik statistic untuk pemodelan dan investigasi hubungan
dua atau lebih variable. - Santoso Budi dan Ardian Umam (2018), Data Mining dan Big Data Analytics

Jenis data yang


digunakan dalam
contoh regresi
Central Transformation Office
Praktik Regresi (1)
Buka file dataset Harga Rumah.xlsx masukkan ke dalam Data Analysis>Regression

▪ Yang akan diprediksi adalah Y – house price


of unit area
▪ Sedangkan Prediktor adalah X1 hingga X5
▪ Jangan lupa centang label

Central Transformation Office 22


Praktik Regresi (2)
Membaca hasil regresi

Proporsi dari variasi variabel terikat yang dapat dijelaskan


oleh variabel bebas dalam model > 0.5 masih bisa diterima

Tidak signifikan

Tidak signifikan bisa


tidak digunakan
Jika < alpha (0,05), masing-masing variabel bebas
signifikan memengaruhi variabel terikat

Central Transformation Office 23


Praktik Regresi (3) Lakukan vlookup untuk data seseuai sample nomor, lalu hitung error
Hitung akurasi model dengan
menggunakan data Sampling

Dilakukan penghitungan
Empat pengukuran sesuai model yang dihasilkan
akurasi yang paling
sering digunakan
adalah MSE, RMSE,
dan MAE. Semakin
kecil semakin baik.

Central Transformation Office 24


Classification
Simple Math Notation on Training Step

Central Transformation Office


Praktik Klasifikasi – Naïve Bayes (1)
Buka WP 20.xlsx – 20 rows, 10 per masing-masing kelas Prioritas Pemeriksaan

Cari Mean dari


masing2 kelas
=AVERAGE(C2:C21) dan variable
=AVERAGE(C22:C41)

Cari Standar
Deviation dari
masing2 kelas
=STDEV.S(C2:C21) dan variable
=STDEV.S(C22:C41)

Pada tahap pertama ini kita melakukan penghitungan


rerata/mean, standar deviasi, dan probabilitas dari =COUNTIF(B:B,I12)/(COUNTA(B:B)-1)
masing2 kelas (tinggi dan rendah). Ketiga =COUNTIF(B:B,I13)/(COUNTA(B:B)-1)
penghitungan tersebut ditujukan untuk membuat
algoritma klasifikasi naïve bayes. Cari Sebaran/Probabilitas dari
masing-masing kelas

Central Transformation Office 27


Praktik Klasifikasi – Naïve Bayes (2)
Pada tahap kedua, lakukan penghitungan distribusi Gaussian (kura normal) dari hitungan sebelumnya, yang akan
digunakan untuk melakukan klasifikasi terhadap data WP yang ada.

=1/SQRT(2*3.14*STDEV^2)*EXP(-((PROBABILITAS-MEAN)^2/(2* STDEV ^2)))


=1/SQRT(2*3.14*I7^2)*EXP(-((I17-I2)^2/(2*I7^2)))

Masukkan data baru untuk diprediksi

Lalu hitung nilai kelas dengan mengalikan


gaussian variables dengan probabilitas

=IF(N20=N18,I18,I19)
=J18*K18*L18*M18*J12
=MAX(N18:N19)
Cari MAX dari kedua nilai dan
tentukan kelas dengan IF
Menghitung Naive Bayes dengan Excel Atribut Data Numerik - Pengalaman Edukasi (pengalaman-edukasi.com)

Central Transformation Office 28


Praktik Klasifikasi – Naïve Bayes (3) - Evaluation
Masukkan data test satu per satu ke dalam model yang dibuat

Hitung prediksi yang salah dan benar ke dalam matrix

Confusion Matrix

Akurasi : (TN+TP)/ Jumlah Data


Recall / True Positive Rate : TP/(FN+TP) Hitung Akurasi, Recall, Precision dan F1 Score

Precision : TP/ (TP+FP)


F1 Score : 2 . Rec.Prec/(Rec+Prec)

Central Transformation Office 29


Unsupervised
Learning
Unsupervised Learning
▪ Algoritma data mining mencari pola dari
semua variable (atribut)
▪ Variable (atribut) yang menjadi
target/label/class tidak ditentukan (tidak
ada)
▪ Algoritma clustering adalah algoritma
unsupervised learning
▪ Contoh penggunaan: Compliance Risk
Management – DJP

Sebagian besar data merupakan data yang tidak mempunyai label, sehingga
metode unsupervised learning ini digunakan secara luas di berbagai bidang.

Central Transformation Office


Clustering Algorithms K-Means

▪ Melakukan clustering
dengan melakukan
pergeseran secara berulang
terhadap rerata cluster
(centroid)

▪ Ditentukan dari awal berapa


cluster yang akan dibuat.

▪ Menentukan berapa kluster


(K) yang dibutuhkan agak
susah untuk dilakukan.

Central Transformation Office


Praktik Klasifikasi – K-Means (1)
Buka Rodaku WP 23.xlsx – 23 rows WP dengan fitur omset dan laba bersih dimana akan dikelompokkan menggunakan K-Means.

Tentukan centroid dari


3 cluster dan turunkan
sampai bawah

Hitung Euclidian distance (rumus


pythagora) antara data dengan centroid
=SQRT((X1-Cent1a)^2+(X2-Cent1b)^2)
=SQRT((B2-E2)^2+(C2-F2)^2)

Ini adalah jarak Euclidian (garis miring)


antara Centroid dengan Data di tiap
Row
Central Transformation Office
Praktik Klasifikasi – K-Means (2)
Tahap dua adalah menentukan Kelas dan Menghitung Means/Centroid yang baru

Menentukan kelas dengan menghitung distance (jarak) yang paling


kecil
=IF(L2=MIN(L2,M2,N2),1,IF(M2=MIN(L2,M2,N2),2,3))

Memasukkan nilai Data sesuai dengan


kelasnya dengan menggunakan rumus IF
=IF(P2=1,B2,"") =IF(P2=2,B2,"") =IF(P2=3,B2,"")

Menghitung Average dari setiap kelas/cluster


untuk dijadikan centroid baru

Central Transformation Office


Praktik Klasifikasi – K-Means (3)
Melakukan iterasi dan menghitung error dibanding kluster sebelumnya

Masukkan hasil average/mean dari masing-


masing kluster di Sheet Kmeans1 ke
center/centroid di Sheet Kmeans2

Lakukan langkah di halaman ini


hingga total error menjadi 0 yang
artinya kluster yang dibentuk
telah stabil.
Beri nama sheets barusan
dengan nama Kmeans1, lalu
copy Kmeans1 dengan nama
Kmeans2 =SUM(Y1:Y24)

Buat kolom Differences, kemudian


hitung perbedaan dengan Kmeans
sebelumnya: =ABS(P2-Kmeans1!P2)

Central Transformation Office


Praktik Klasifikasi – K-Means (4)
Visualisasi

Buat Sheet baru lalu masukkan juga Buat kolom baru, yang berisi duplikasi
kelas/cluster sesuai dengan iterasi terakhir. kolom Kesehatan (X2), kemudian buat Buat visualisasi menggunakan
Iterasi terakhir dalam dataset ini adalah pengelompokan kelas seperti di atas scatterplot untuk melihat hasil
iterasi ke-3. dengan rumus: clusteringnya.
=IF(D2=1,B2,NA())
Pastikan #N/A bagi yang kosong.

Central Transformation Office


Bagaimana? Susah?
Mumet?
Sakit Pinggang?
Kenapa Excel Kurang Cocok untuk Data Analytics
• Excel secara native bukan untuk melakukan data
analytics yang mendalam seperti machine learning
• Pengolahan data menggunakan excel jika ratusan ribu
baris akan sangat berat, kipas berdengung, mouse
melambat, dan jantung berdegup kencang berharap
tidak crash.
• Maksimal pengolahan data di Excel 2019 hanya
1,048,576 baris.
• Banyak tools analytics yang lebih praktis dan bisa
mengolah lebih banyak data.

Central Transformation Office 38


Akan jauh lebih mudah dilakukan
menggunakan software
Introduction Slide

Terima Kasih.

Central transformation Office


Kementerian Keuangan RI
40
Regression:
Timeseries
Time Series
Time series atau runtun waktu adalah himpunan observasi terurut dalam waktu (Wei,
1994). Metode time series adalah metode peramalan dengan menggunakan analisa
plot hubungan antara variabel yang akan diperkirakan dengan variabel waktu. Time
series analysis dapat diterapkan di bidang ekonomi, bisnis, industri, teknik, dan ilmu-
ilmu sosial.

Jenis data yang


digunakan dalam
contoh forecasting

Central Transformation Office 42


Time Series ada di Sekitar Kita (1)
• Data Kemacetan di Jawa Barat • Perkembangan COVID-19

s.id/VaccineCovid19

Macet weekend:
Macet long Time Series adalah deretan data yang berurutan
Macet weekday: weekend: berdasarkan titik waktu. Time Series bersifat
Lebih banyak
17-19 (orang Lebih banyak
pulang kerja)
jam yang
hari dan jam
diskret dan interval antartitiknya konstan.
macet
yang macet

Central Transformation Office 43


Praktik Timeseries (1) Masuk ke Tab Data dan Pilih Forecast Sheet

Buka file dataset Neraca Perdagangan.xlsx

Pilih beberapa
Date sebagai
Timeline Range,
dan neraca
perdagangan
sebagai Values
Range (ang akan
diprediksi.
Masukkan
paramater2 lain
seperti di
Pastikan ada kolom yang mengandung timeline dengan jarak samping.
yang konsisten (di sini menggunakan kolom Date)

Central Transformation Office


Praktik Timeseries (2)
Apabila kita memilih
“include forecast
statistics” di dalam tahap
sebelumnya, pengukuran
error dapat secara
otomatis dilakukan

Data Anaysis Toolpack akan secara otomatis membuat table


prediksi dan grafik yang menunjukkan prediksi (garis tebal Ini adalah standar MAPE (diajarkan penghitungannya
orange), dan batas atas bawahnya (garis tipis orange) di algoritma selanjutnya) yang sedikit berbeda
dengan symmetric MAPE (SMAPE)

Central Transformation Office

Anda mungkin juga menyukai