DSF - Tugas Proyek Data Science

Data Science Fundamental
Tugas Proyek Data Science
Pusdiklat - Kementerian Komunikasi dan Informatika #JadiJagoanDigital

Proyek Data Science
Pada kesempatan ini, digiers diharuskan untuk dapat
berkoordinasi dengan sesama rekan pelatihan untuk membuat
kelompok kerja dalam proyek data science.
Adapun proyek data science dikerjakan secara berkelompok

menggunakan kaidah yang terdapat pada CRISP-DM
Penjelasan lengkap setiap fase dan contoh pengerjaan tugas

dapat dilihat pada slide berikutnya.
Business Understanding
• Berisi deskripsi / jelaskan problem / masalah bisnis yang dihadapi
• Tentukan tujuan dari project nya
• Tentukan solusi / pendekatan / metode data mining yang akan diterapkan (estimasi,
forecasting, klasifikasi, clustering, asosiasi)
Data Understanding
• Berisi penjelasan sumber data didapat dari mana ?
• Bagaimana cara mengoleksi data (menghimpun data)
• Menjelaskan attribute yang digunakan
Data Preparation (pre-processing)
• Menjelaskan langkah – langkah preprocessing data yang dilakukan
• Menjelaskan proses perbaikan data yang dilakukan {data cleaning, feature extraksi,
transformasi, reduksi}
Modeling
• Berisi penjelasan langkah – langkah melakukan modeling sesuai dengan karakteristik data
dan tujuan yang ingin dicapai
• Gambar screen capture dari model yang dipilih dan dibentuk pada rapidminer
Evaluasi
• Berisi penjelasan evaluasi metrik yang sesuai dengan model algoritma yang digunakan
• Bisa berisi hasil perbandingan tingkat akurasi / error / performance model atau antar model
Kesimpulan
Berisi kesimpulan / rekomendasi (wisdom) dan saran dari hasil project data science
x
contoh tugas proyek data science dengan
pengerjaan berbasis CRISP-DM
Cluster Data APBD
Business Understanding
• Segmentasi APBD berdasarkan nilai APBD, porsi belanja modal, diperlukan dalam hal:
• Evaluasi pengelolaan APBD yang optimal
• Menjadi rujukan dalam prioritas pendampingan Pemda
• Mewujudkan belanja daerah yang lebih bertanggung jawab
Data Understanding
• Data APBD 2021

• Kodepemda: Id dari setiap Pemerintah Provinsi dan Kabupaten/Kota (Nominal)
• Pemda: Nama Pemerintah Daerah (Nominal)
• Size APBD: Nilai APBD (Continuous)
• Porsi PAD: Nilai Pendapatan Asli Daerah (Continuous)
• Porsi Belanja Modal: Nilai belanja modal yang dapat digunakan oleh Pemerintah Daerah
(Continuous)
• IPM: Nilai Indeks pembangunan manusia (Discrete)
Data Preparation
• 542 Tuples
• 6 Variabel
• Tidak terdapat missing values
• Size APBD berkumpul di 500M s.d. 7T
• Bila membandingkan Size APBD dengan variable lainnya,
DKI Jakarta, Jabar, Jateng, dan Jatim merupakan outlier atau
memiliki kecenderungan performa yang luar biasa baik
dibandingkan pemda lainnya. Dalam kasus ini, pemda
tersebut akan dikeluarkan dari dataset.
Data Preparation
• Masih terdapat Pemerintah Daerah

yang memiliki nilai IPM <50 namun
memiliki size APBD yang tidak kalah besar dibandingkan Pemerintah Daerah lainnya,
seperti Kab. Nduga, Kab. Puncak, Kab. Pegunungan Bintang, Kab. Lanny Jaya, Kab.
Intan Jaya, Kab. Mamberamo Tengah, Kab. Yalimo, Kab. Puncak Jaya, Kab. Yahukimo,
Kab. Deiyai, dan Kab. Tolikara. Pemerintah Daerah tersebut juga akan dikeluarkan dari
dataset.
• Terdapat skewed data pada variable Size APBD dan Porsi PAD yang
harus dinormalisasi.
• Masing-masing variable merupakan
variable yang independent.
Langkah di Rapidminer
1. Retrieve data APBD_Dataset.xlsx
2. Select Attributes, karena kolom kodepemda di dataset tidak 4. Setting role kolom Nama Pemda menjadi Id
diperlukan,
5. Set Multiply agar dapat menguji beberapa model

sekaligus
3. Filter outliers secara nilai APBD yang terlalu besar, agar

model lebih optimal.
Modeling
• Dalam kasus ini, hanya akan menggunakan

Centroid-based Filtering Clustering
• Algoritme yang digunakan pada RM adalah
K-Means, X-Means, dan K-Medoid
• Jumlah rentang cluster yang diuji antara 2
s.d. 50
Evaluasi berdasarkan Davies Bouldin
Top 10 k-Means Top 10 x-Means Top 10 k-Medoid

Cluster terbaik adalah K-Means dengan 30 clusters, however….
1. 30 Clusters susah untuk digunakan dalam

pengambilan keputusan.
2. Tidak ada pemisahan yang jelas meskipun
skor cenderung lebih rendah.
3. Secara visual dan kebijakan sulit untuk
dibuat perbedaan, sehingga treatment yang
diberikan juga akan sulit dirumuskan.
4. Sehingga perlu mengurangi cluster pada
grid max 10.
K-Means 2-10 cluster results
1. Cluster yang didapatkan

lebih mudah digunakan
karena lebih mudah
dibedakan karakternya.
2. Secara visual lebih baik
meskipun masih dapat
ditingkatkan lagi dengan data
engineering.
3. IPM tidak menjadi penentu
cluster yang baik karena skor
IPM adalah akumulasi
puluhan tahun, sedang yang
lain tahunan.
However, cluster bergantung size APBD
Cluster berdasar PAD dan Belanja Modal tidak jelas
K-Means 2-10 + IPM delta + nominal datasets + log
1. Cluster yang didapatkan

lebih jelas namun secara
jumlah cluster makin kecil
dan skor Davies semakin
menjauhi
2. IPM delta masih tidak
menjadi penentu cluster,
akan tetapi 3 faktor lain
lebih explainable untuk
digunakan sebgai dasar
pengambilan kebijakan.
Size APBD tidak dominan menentukan cluster
Keterkaitan antara PAD, belanja modal, & siza APBD terlihat
Kesimpulan
1. Secara skor David Boudin, skor yang didapat paling tinggi adalah menggunakan model K-
Means dengan jumlah 30 cluster.
2. Akan tetapi perlu dilihat lagi tujuan dari business process yang akan dicapai, dalam hal ini
adalah evaluasi dan pengambilan kebijakan terhadap kinerja anggaran Pemda.
3. Oleh karena itu pencarian cluster terbaik di angka 2-10 lebih disarankan karena hasilnya
dapat memberikan insight dan membantu perumusan kebijakan yang lebih baik, dimana 9
clusters K-Means merupakan yang terbaik.
4. Perlu dilakukan juga evaluasi terhadap dataset, apakah cukup apa yang diberikan, ataukah
masih memerlukan transformasi atau dataset tambahan, dalam hal ini delta IPM dan nilai
nominal dari belanja modal (log) dan PAD (log) pada iterasi ketiga.
5. Iterasi ketiga menghasilkan cluster yang lebih bisa dibaca dan berguna dalam menghasilkan
keputusan, meskipun secara skor lebih rendah dibandingkan iterasi pertama.
TERIMA KASIH
#JadiJagoanDigital Digital Talent Scholarship digitalent.kominfo DTS_kominfo

DSF - Tugas Proyek Data Science

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

DSF - Tugas Proyek Data Science

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Science Fundamental

Tugas Proyek Data Science

Pusdiklat - Kementerian Komunikasi dan Informatika #JadiJagoanDigital

Adapun proyek data science dikerjakan secara berkelompok

Penjelasan lengkap setiap fase dan contoh pengerjaan tugas

• Data APBD 2021

• Masih terdapat Pemerintah Daerah

5. Set Multiply agar dapat menguji beberapa model

3. Filter outliers secara nilai APBD yang terlalu besar, agar

• Dalam kasus ini, hanya akan menggunakan

Top 10 k-Means Top 10 x-Means Top 10 k-Medoid

1. 30 Clusters susah untuk digunakan dalam

1. Cluster yang didapatkan

1. Cluster yang didapatkan

#JadiJagoanDigital Digital Talent Scholarship digitalent.kominfo DTS_kominfo

Anda mungkin juga menyukai