Anda di halaman 1dari 17

Homework

Introduction to
Data Science
Estimasi Waktu Pengerjaan

1 - 2 jam

Jumlah Soal

5 Soal

Total Point

100 poin
Teknis Pengerjaan
1. Pekerjaan dilakukan secara individu, dengan menggunakan template seperti
dibagian Appendix pada file ini.

2. Soal-soal berupa pertanyaan bisnis yang dijawab dengan Esai, dan soal-soal dibagi
menjadi beberapa bagian berdasarkan tingkat kesulitannya.
- Beginner : 1 soal
- Intermediate : 1 soal
- Advance : 1 soal

3. Upload hasil pekerjaanmu melalui LMS. Masukkan semua jawaban ke dalam 1 file
dengan format PDF (bukan ppt/zip/rar)
4. Nama File:
Digifest - <Nama>.pdf
Data Science
Methodology
(by John Rollins, SDS IBM)
Dataset yang digunakan pada Homework

A. Health Insurance
Predict Health Insurance Owners' who will be interested in Vehicle
Insurance
B. Used Car Auction Prices
Predict the price of a used car based on its specification and
condition
Soal Beginner
1. Business Use Case (30 poin: 15 poin / dataset)

Tiap dataset dapat kita gunakan untuk membuat suatu machine learning model yang
dapat dimanfaatkan untuk menyelesaikan suatu problem tertentu.

Dari 2 dataset yang tersedia, kemudian tentukan:

● Problem apa yang dapat diselesaikan dengan model tersebut?


● Business Metrics apa yang ingin ditingkatkan dalam problem tersebut (1 saja)?
● Jelaskan bagaimana model tersebut dapat membantu menyelesaikan problem dan
meningkatkan business metrics itu.

Template pengerjaan bisa dilihat di bagian Appendix di file ini (paling bawah)

30-45 menit
Soal Intermediate
2. Business Use Case (30 poin: 15 poin / dataset)

Setelah mengidentifikasi bagian dari business understanding dan analytical approach,


maka selanjutnya:

● Apa saja data/variabel yang relevan untuk menyelesaikan permasalahan tersebut


beserta contoh isi dari variabel tersebut (minimal ada 5 variabel independen (X) dan 1
variabel target (Y))?
● Sebutkan kemungkinan sumber data tersebut bisa diperoleh (minimal 2 sumber) !
● Metode apa saja yang bisa dilakukan untuk mendapatkan insight murni dari data
sehingga bisa dijadikan sumber dalam menyiapkan ke tahap lebih lanjut?
● Template pengerjaan bisa dilihat di bagian Appendix di file ini (paling bawah)

30-45 menit
Soal Advanced
3. Analytical Thinking (40 poin)

Sebelum ke tahap pemodelan ML atau analisis inferensial lainnya, kita perlu memastikan
bahwa data yang kita gunakan sudah dalam keadaan yang bersih. Kita sepakat bahwa
“bersih” nya data yang kita gunakan akan menjadikan pengolahan data kita menjadi tepat
guna/akurat.

1. Berikan pendapatmu, apa resiko bagi kita apabila kita tetap melakukan proses
analisis data pada padahal data yang kita punya masih sangat kotor (seperti missing
value/ data yang hilang, data salah format/ketik, dan lainnya)
2. Coba pilih satu permasalahan data dan cara menanggulanginya, kemudian jelaskan
mengapa menanggulanginya dengan metode tersebut itu penting.

30-60 menit
Selamat Mengerjakan!
Appendix
1X. Loan Approval
(ini sebagai contoh jawaban No 1)

Problem:
Pada perusahaan fintech dengan suatu produk pinjaman online,
ada banyak pengajuan pinjaman yang masuk, dan perlu
di-review mana yang perlu disetujui atau ditolak.
Pengajuan yang masuk sangat banyak, sedangkan kapasitas
untuk review manual terbatas.

Business metrics:
Daily resolved application
(banyaknya pengajuan yang berhasil di-review per hari)

Penjelasan Solusi:
Kita bisa menggunakan model untuk memprediksi apakah suatu
pinjaman sebaiknya diterima atau ditolak secara otomatis.
Dengan adanya model ini, daily resolved application akan
meningkat karena banyak pengajuan yang di-review secara
otomatis oleh model, tidak perlu review manual lagi.
1A. <Nama Dataset A>

Problem:
<problem>

Business metrics:
<business metrics>

Penjelasan Solusi:
<penjelasan>

Gunakan template ini untuk menjawab soal nomor 1


1X. Loan Approval
(ini sebagai contoh jawaban No 2)

Variabel yang digunakan:


- Jenis kelamin (L / P)
- Jumlah tanggungan (0 / 1 / 2 / … / 99)
- Pendidikan (SD / SMP / SMA / Diploma / S1 / S2 / S3)
- Pekerjaan (Guru Ngaji / Guru TK / Pro-player / Software Engineer / …)
- Penghasilan (Rp 0 - 1 juta / Rp 1 juta - Rp 5 juta / … )
- Besar Pinjaman (Rupiah)
- Tenor Waktu Pinjaman (bulan)
- Hasil BI Checking (Ya / Tidak)
- Keputusan Kredit (Terima / Tolak) - Variabel Target / Y

Sumber data:
- Online: Kaggle / UCL Dataset
- Offline: Request data ke Bank

Metode Data Understanding:


- Analisis Deskriptif:
a. Plot antara jumlah tanggungan dengan besar pinjaman.
Harapannya untuk mendapatkan insight apakah terdapat korelasi
antara jumlah tanggungan customer dengan besar pinjaman yang
diajukan.
b. Diagram batang untuk menggambarkan penyebaran penghasilan
dengan keputusan kredit/pinjaman.
2A. <Nama Dataset A>

Variabel yang digunakan:


<detail>

Sumber data:
<detail>

Metode dalam Data Understanding:


<detail>

Gunakan template ini untuk menjawab soal nomor 2

Anda mungkin juga menyukai