Introduction to
Data Science
NAMA DENI MALIK IRAWAN
Estimasi Waktu Pengerjaan
1 - 2 jam
Jumlah Soal
3 Soal
Total Point
100 poin
Teknis Pengerjaan
1. Pekerjaan dilakukan secara individu, dengan menggunakan template
seperti dibagian Appendix pada file ini.
2. Soal-soal berupa pertanyaan bisnis yang dijawab dengan Esai, dan soal-soal
dibagi menjadi beberapa bagian berdasarkan tingkat kesulitannya.
- Beginner :1
- InĞermedia soal
Ğe :1
- Advance soal
3. :1
Upload hasil pekerjaanmu melalui LMS. Masukkan semua jawaban ke dalam 1
file soal
dengan format PDF (bukan ppt/zip/rar)
4. Nama File:
Digifest - <Nama>.pdf
Data Science
Methodology
(by John Rollins, SDS IBM)
Dataset yang digunakan pada Homework
A. Health Insurance
Predict Health Insurance Owners' who will be interested in
Vehicle Insurance
B. Used Car Auction Prices
Predict the price of a used car based on its specification
and condition
Soal
Beginner
1. Business Use Case (30 poin: 15 poin /
dataset)
Tiap dataset dapat kita gunakan untuk membuat suatu machine learning model
yang dapat dimanfaatkan untuk menyelesaikan suatu problem tertentu.
Template pengerjaan bisa dilihat di bagian Appendix di file ini (paling bawah)
30-45 menit
Soal
InĞermediaĞe
2. Business Use Case (30 poin: 15 poin /
dataset)
30-45 menit
Soal
Advanced
3. Analytical Thinking (40 poin)
1. Berikan pendapatmu, apa resiko bagi kita apabila kita tetap melakukan proses
analisis data pada padahal data yang kita punya masih sangat kotor (seperti
missing value/ data yang hilang, data salah format/ketik, dan lainnya)
2. Coba pilih satu permasalahan data dan cara menanggulanginya, kemudian
jelaskan
mengapa menanggulanginya dengan metode tersebut itu penting.
30-60 menit
Selamat Mengerjakan!
Appendix
1X. Loan Approval
(ini sebagai conĞoh jawaban No
1)
Problem:
Pada perusahaan fintech dengan suatu produk pinjaman online, ada
banyak pengajuan pinjaman yang masuk, dan perlu
di-review mana yang perlu disetujui atau ditolak.
Pengajuan yang masuk sangat banyak, sedangkan kapasitas untuk
review manual terbatas.
Business metrics:
Daily resolved application
(banyaknya pengajuan yang berhasil di-review per hari)
Penjelasan Solusi:
Kita bisa menggunakan model untuk memprediksi apakah suatu
pinjaman sebaiknya diterima atau ditolak secara otomatis.
Dengan adanya model ini, daily resolved application akan
meningkat karena banyak pengajuan yang di-review secara
otomatis oleh model, tidak perlu review manual lagi.
1A. <Nama Dataset
A>
Problem:
Pada perusahaan yang bergerak dibidang produksi makanan dan minuman , ada banyak
pengajuan dari pihak distributor tentang produk makanan dan minuman yang masuk, dan perlu
di-review mana yang perlu disetujui atau ditolak.
Pengajuan yang masuk sangat banyak, sedangkan kapasitas untuk review manual terbatas.
Business metrics:
Daily resolved application
(banyaknya pengajuan yang berhasil di-review per hari)
Penjelasan Solusi:
Kita bisa menggunakan model untuk memprediksi apakah suatu produk makanan dan
minuman sebaiknya diterima atau ditolak secara otomatis.
Dengan adanya model ini, daily resolved application akan meningkat karena banyak
pengajuan yang di-review secara otomatis oleh model, tidak perlu review manual lagi.
Sumber data:
- Online: Kaggle / UCL Dataset
- Offline: Request data ke Bank
Sumber1.data:Berikan pendapatmu, apa resiko bagi kita apabila kita tetap melakukan proses analisis
- Online: Kaggle
data
/ UCLpada padahal data yang kita punya masih sangat kotor (seperti missing value/ data
Dataset
- Offline: Request data ke Pabrik
yang hilang, data salah format/ketik, dan lainnya) Jawaban Missing value yang tidak diatasi
Metode Data dapat menimbulkan perubahan hasil analisis. Pada akhirnya, data-data yang
Understanding:
- Analisis Deskriptif:
memuatnya bisa memberikan kesimpulan yang berbeda dibandingkan dengan data yang
a. Plot antara kualitas produk dan kepuasan konsumen dalam membeli produk Harapannya untuk mendapatkan insight apakah terdapat korelasi
telah dibersihkan atau dibenahi.
antara kualitas produk dan kepuasan konsumen dalam membeli produk
b. Diagram batang untuk menggambarkan penyebaran penghasilan dengan apakah konsumen puas membeli produk makanan dan minuman
2. Coba pilih satu permasalahan data dan cara menanggulanginya, kemudian jelaskan
tersebut
mengapa menanggulanginya dengan metode tersebut itu penting.
MASSALAH MISSING VALUE
MENGHAPUS MISSING VALUE
Cara berikutnya yang bisa Anda lakukan adalah dengan menghapusnya. Cara ini mengharuskan
Anda untuk menghapus kolom atau variabel yang mengandung kesalahan. Untuk itu, penting
memastikan bahwa data-data yang dihapus bukan merupakan variabel terpenting dari sebuah
kumpulan data.
Cara ini mungkin terlihat mudah bagi Anda karena hanya perlu melakukan penghapusan pada
data-data yang salah dan hilang. Akan tetapi, apabila data yang Anda kerjakan berjumlah besar,
tentu menghapusnya menjadi pekerjaan yang rumit. Semakin banyak data, semakin banyak
tinggi pula risiko yang dimilikinya.
Artinya, jika data dalam jumlah besar, kemungkinan sebuah data mengalami missing value juga
besar. Apabila solusi yang Anda terapkan hanya dengan menghapus data-data tersebut, tentu ini
bukan pekerjaan yang efisien. Jadi, akan lebih baik apabila Anda melakukan analisis mengapa
data-data tersebut hilang dan di mana Anda bisa menemukannya kembali.