Data Analytic
1
WARNING
Pastikan anda sudah
makan sebelum
mengikuti materi
ini!!!
Data Mining Lifecycle
▪ Business Understanding
▪ Data Understanding
▪ Data Preparation Yang akan kita
▪ Modeling banyak pelajari
▪ Evaluation
▪ Deployment
DataExploration and
Preparation
6
Data Understanding
1. Buka file Rodaku neraca perdagangan.xlsx.
2. Langkah pertama dalam pengolahan data adalah
memahami data, salah satunya dengan
mengetahui deskripsi data, contoh adalah
sebagai berikut:
Kolom Definisi Bentuk Data
date Tanggal disajikan per bulan Datetime - MMM-YY
1
2
Range Selisih antara nilai maksimum dan minimum dari dataset MAX-MIN
Minimum Nilai terkecil dari dataset MIN
Maximum Nilai terbesar dari dataset MAX
Sum Jumlah dari semua nilai dari dataset SUM
Count Jumlah row/tuple/nilai dari dataset COUNT
standard deviation
kurtosis
Supervised
Learning
17
Supervised Learning
• Pembelajaran dengan guru, data set memiliki
target/label/class
• Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised learning
• Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable
prediktor
Tidak signifikan
Dilakukan penghitungan
Empat pengukuran sesuai model yang dihasilkan
akurasi yang paling
sering digunakan
adalah MSE, RMSE,
dan MAE. Semakin
kecil semakin baik.
Cari Standar
Deviation dari
masing2 kelas
=STDEV.S(C2:C21) dan variable
=STDEV.S(C22:C41)
=IF(N20=N18,I18,I19)
=J18*K18*L18*M18*J12
=MAX(N18:N19)
Cari MAX dari kedua nilai dan
tentukan kelas dengan IF
Menghitung Naive Bayes dengan Excel Atribut Data Numerik - Pengalaman Edukasi (pengalaman-edukasi.com)
Confusion Matrix
Sebagian besar data merupakan data yang tidak mempunyai label, sehingga
metode unsupervised learning ini digunakan secara luas di berbagai bidang.
▪ Melakukan clustering
dengan melakukan
pergeseran secara berulang
terhadap rerata cluster
(centroid)
Buat Sheet baru lalu masukkan juga Buat kolom baru, yang berisi duplikasi
kelas/cluster sesuai dengan iterasi terakhir. kolom Kesehatan (X2), kemudian buat Buat visualisasi menggunakan
Iterasi terakhir dalam dataset ini adalah pengelompokan kelas seperti di atas scatterplot untuk melihat hasil
iterasi ke-3. dengan rumus: clusteringnya.
=IF(D2=1,B2,NA())
Pastikan #N/A bagi yang kosong.
Terima Kasih.
s.id/VaccineCovid19
Macet weekend:
Macet long Time Series adalah deretan data yang berurutan
Macet weekday: weekend: berdasarkan titik waktu. Time Series bersifat
Lebih banyak
17-19 (orang Lebih banyak
pulang kerja)
jam yang
hari dan jam
diskret dan interval antartitiknya konstan.
macet
yang macet
Pilih beberapa
Date sebagai
Timeline Range,
dan neraca
perdagangan
sebagai Values
Range (ang akan
diprediksi.
Masukkan
paramater2 lain
seperti di
Pastikan ada kolom yang mengandung timeline dengan jarak samping.
yang konsisten (di sini menggunakan kolom Date)