Introduction to
Data Science
Estimasi Waktu Pengerjaan
1 - 2 jam
Jumlah Soal
5 Soal
Total Point
100 poin
Teknis Pengerjaan
1. Pekerjaan dilakukan secara individu, dengan menggunakan template seperti
dibagian Appendix pada file ini.
2. Soal-soal berupa pertanyaan bisnis yang dijawab dengan Esai, dan soal-soal dibagi
menjadi beberapa bagian berdasarkan tingkat kesulitannya.
- Beginner : 1 soal
- Intermediate : 1 soal
- Advance : 1 soal
3. Upload hasil pekerjaanmu melalui LMS. Masukkan semua jawaban ke dalam 1 file
dengan format PDF (bukan ppt/zip/rar)
4. Nama File:
Digifest - <Nama>.pdf
Data Science
Methodology
(by John Rollins, SDS IBM)
Dataset yang digunakan pada Homework
A. Health Insurance
Predict Health Insurance Owners' who will be interested in Vehicle
Insurance
B. Used Car Auction Prices
Predict the price of a used car based on its specification and
condition
Soal Beginner
1. Business Use Case (30 poin: 15 poin / dataset)
Tiap dataset dapat kita gunakan untuk membuat suatu machine learning model yang
dapat dimanfaatkan untuk menyelesaikan suatu problem tertentu.
Template pengerjaan bisa dilihat di bagian Appendix di file ini (paling bawah)
30-45 menit
Soal Intermediate
2. Business Use Case (30 poin: 15 poin / dataset)
30-45 menit
Soal Advanced
3. Analytical Thinking (40 poin)
Sebelum ke tahap pemodelan ML atau analisis inferensial lainnya, kita perlu memastikan
bahwa data yang kita gunakan sudah dalam keadaan yang bersih. Kita sepakat bahwa
“bersih” nya data yang kita gunakan akan menjadikan pengolahan data kita menjadi tepat
guna/akurat.
1. Berikan pendapatmu, apa resiko bagi kita apabila kita tetap melakukan proses
analisis data pada padahal data yang kita punya masih sangat kotor (seperti missing
value/ data yang hilang, data salah format/ketik, dan lainnya)
2. Coba pilih satu permasalahan data dan cara menanggulanginya, kemudian jelaskan
mengapa menanggulanginya dengan metode tersebut itu penting.
30-60 menit
Selamat Mengerjakan!
Appendix
1X. Loan Approval
(ini sebagai contoh jawaban No 1)
Problem:
Pada perusahaan fintech dengan suatu produk pinjaman online,
ada banyak pengajuan pinjaman yang masuk, dan perlu
di-review mana yang perlu disetujui atau ditolak.
Pengajuan yang masuk sangat banyak, sedangkan kapasitas
untuk review manual terbatas.
Business metrics:
Daily resolved application
(banyaknya pengajuan yang berhasil di-review per hari)
Penjelasan Solusi:
Kita bisa menggunakan model untuk memprediksi apakah suatu
pinjaman sebaiknya diterima atau ditolak secara otomatis.
Dengan adanya model ini, daily resolved application akan
meningkat karena banyak pengajuan yang di-review secara
otomatis oleh model, tidak perlu review manual lagi.
1A. <Nama Dataset A>
Problem:
<problem>
Business metrics:
<business metrics>
Penjelasan Solusi:
<penjelasan>
Sumber data:
- Online: Kaggle / UCL Dataset
- Offline: Request data ke Bank
Sumber data:
<detail>