Anda di halaman 1dari 19

Homework

Introduction to
Data Science
NAMA DENI MALIK IRAWAN
Estimasi Waktu Pengerjaan

1 - 2 jam

Jumlah Soal

3 Soal

Total Point

100 poin
Teknis Pengerjaan
1. Pekerjaan dilakukan secara individu, dengan menggunakan template
seperti dibagian Appendix pada file ini.

2. Soal-soal berupa pertanyaan bisnis yang dijawab dengan Esai, dan soal-soal
dibagi menjadi beberapa bagian berdasarkan tingkat kesulitannya.
- Beginner :1
- InĞermedia soal
Ğe :1
- Advance soal
3. :1
Upload hasil pekerjaanmu melalui LMS. Masukkan semua jawaban ke dalam 1
file soal
dengan format PDF (bukan ppt/zip/rar)
4. Nama File:
Digifest - <Nama>.pdf
Data Science

Methodology
(by John Rollins, SDS IBM)
Dataset yang digunakan pada Homework

A. Health Insurance
Predict Health Insurance Owners' who will be interested in
Vehicle Insurance
B. Used Car Auction Prices
Predict the price of a used car based on its specification
and condition
Soal
Beginner
1. Business Use Case (30 poin: 15 poin /
dataset)

Tiap dataset dapat kita gunakan untuk membuat suatu machine learning model
yang dapat dimanfaatkan untuk menyelesaikan suatu problem tertentu.

Dari 2 dataset yang tersedia, kemudian tentukan:

● Problem apa yang dapat diselesaikan dengan model tersebut?


● Business Metrics apa yang ingin ditingkatkan dalam problem tersebut (1 saja)?
● Jelaskan bagaimana model tersebut dapat membantu menyelesaikan problem
dan meningkatkan business metrics itu.

Template pengerjaan bisa dilihat di bagian Appendix di file ini (paling bawah)

30-45 menit
Soal
InĞermediaĞe
2. Business Use Case (30 poin: 15 poin /
dataset)

Setelah mengidentifikasi bagian dari business understanding dan analytical


approach, maka selanjutnya:

● Apa saja data/variabel yang relevan untuk menyelesaikan permasalahan tersebut


beserta contoh isi dari variabel tersebut (minimal ada 5 variabel independen (X)
dan 1 variabel target (Y))?
● Sebutkan kemungkinan sumber data tersebut bisa diperoleh (minimal 2
sumber) !
● Metode apa saja yang bisa dilakukan untuk mendapatkan insight murni dari
data sehingga bisa dijadikan sumber dalam menyiapkan ke tahap lebih lanjut?
● Template pengerjaan bisa dilihat di bagian Appendix di file ini (paling bawah)

30-45 menit
Soal
Advanced
3. Analytical Thinking (40 poin)

Sebelum ke tahap pemodelan ML atau analisis inferensial lainnya, kita perlu


memastikan bahwa data yang kita gunakan sudah dalam keadaan yang bersih. Kita
sepakat bahwa “bersih” nya data yang kita gunakan akan menjadikan pengolahan data
kita menjadi tepat guna/akurat.

1. Berikan pendapatmu, apa resiko bagi kita apabila kita tetap melakukan proses
analisis data pada padahal data yang kita punya masih sangat kotor (seperti
missing value/ data yang hilang, data salah format/ketik, dan lainnya)
2. Coba pilih satu permasalahan data dan cara menanggulanginya, kemudian
jelaskan
mengapa menanggulanginya dengan metode tersebut itu penting.

30-60 menit
Selamat Mengerjakan!
Appendix
1X. Loan Approval
(ini sebagai conĞoh jawaban No
1)
Problem:
Pada perusahaan fintech dengan suatu produk pinjaman online, ada
banyak pengajuan pinjaman yang masuk, dan perlu
di-review mana yang perlu disetujui atau ditolak.
Pengajuan yang masuk sangat banyak, sedangkan kapasitas untuk
review manual terbatas.

Business metrics:
Daily resolved application
(banyaknya pengajuan yang berhasil di-review per hari)

Penjelasan Solusi:
Kita bisa menggunakan model untuk memprediksi apakah suatu
pinjaman sebaiknya diterima atau ditolak secara otomatis.
Dengan adanya model ini, daily resolved application akan
meningkat karena banyak pengajuan yang di-review secara
otomatis oleh model, tidak perlu review manual lagi.
1A. <Nama Dataset
A>

Problem:
Pada perusahaan yang bergerak dibidang produksi makanan dan minuman , ada banyak
pengajuan dari pihak distributor tentang produk makanan dan minuman yang masuk, dan perlu
di-review mana yang perlu disetujui atau ditolak.
Pengajuan yang masuk sangat banyak, sedangkan kapasitas untuk review manual terbatas.

Business metrics:
Daily resolved application
(banyaknya pengajuan yang berhasil di-review per hari)

Penjelasan Solusi:
Kita bisa menggunakan model untuk memprediksi apakah suatu produk makanan dan
minuman sebaiknya diterima atau ditolak secara otomatis.
Dengan adanya model ini, daily resolved application akan meningkat karena banyak
pengajuan yang di-review secara otomatis oleh model, tidak perlu review manual lagi.

Gunakan template ini untuk menjawab soal nomor


1
2A. <Nama Dataset
A>

Variabel yang digunakan:


- Jenis kelamin (L / P)
- Jumlah tanggungan (0 / 1 / 2 / … / 99)
- Pendidikan (SD / SMP / SMA / Diploma / S1 / S2 / S3)
- Pekerjaan (Guru Ngaji / Guru TK / Pro-player / Software Engineer / …)
- Penghasilan (Rp 0 - 1 juta / Rp 1 juta - Rp 5 juta / … )
- Besar Pinjaman (Rupiah)
- Tenor Waktu Pinjaman (bulan)
- Hasil BI Checking (Ya / Tidak)
- Keputusan Kredit (Terima / Tolak) - Variabel Target / Y

Sumber data:
- Online: Kaggle / UCL Dataset
- Offline: Request data ke Bank

Metode Data Understanding:


- Analisis Deskriptif:
a. Plot antara jumlah tanggungan dengan besar pinjaman. Harapannya untuk mendapatkan insight apakah terdapat korelasi antara jumlah
tanggungan customer dengan besar pinjaman yang diajukan.
b. Diagram batang untuk menggambarkan penyebaran penghasilan dengan keputusan kredit/pinjaman.

Gunakan template ini untuk menjawab soal nomor 2


1X. Loan Approval
(ini sebagai conĞoh jawaban No
2)
Variabel yang digunakan:
- Id Produk (angka)
- Nama Produk (huruf)
- Jumlah Produk (angka)
Sebelum
- Kategori Produkke tahap pemodelan ML atau analisis inferensial lainnya, kita perlu memastikan bahwa
(Makanan/Minuman)
- Stok data yang
Produk (Rpkita
0 - 1gunakan
juta / Rp 1 sudah
juta - Rpdalam
5 juta / keadaan
…) yang bersih. Kita sepakat bahwa “bersih” nya data
- Harga Produk (Rupiah)
yang kita gunakan akan menjadikan pengolahan data kita menjadi tepat guna/akurat.
- Keputusan Produk (Terima / Tolak) - Variabel Target / Y

Sumber1.data:Berikan pendapatmu, apa resiko bagi kita apabila kita tetap melakukan proses analisis
- Online: Kaggle
data
/ UCLpada padahal data yang kita punya masih sangat kotor (seperti missing value/ data
Dataset
- Offline: Request data ke Pabrik
yang hilang, data salah format/ketik, dan lainnya) Jawaban Missing value yang tidak diatasi
Metode Data dapat menimbulkan perubahan hasil analisis. Pada akhirnya, data-data yang
Understanding:
- Analisis Deskriptif:
memuatnya bisa memberikan kesimpulan yang berbeda dibandingkan dengan data yang
a. Plot antara kualitas produk dan kepuasan konsumen dalam membeli produk Harapannya untuk mendapatkan insight apakah terdapat korelasi
telah dibersihkan atau dibenahi.
antara kualitas produk dan kepuasan konsumen dalam membeli produk
b. Diagram batang untuk menggambarkan penyebaran penghasilan dengan apakah konsumen puas membeli produk makanan dan minuman
2. Coba pilih satu permasalahan data dan cara menanggulanginya, kemudian jelaskan
tersebut
mengapa menanggulanginya dengan metode tersebut itu penting.
MASSALAH MISSING VALUE
MENGHAPUS MISSING VALUE
Cara berikutnya yang bisa Anda lakukan adalah dengan menghapusnya. Cara ini mengharuskan
Anda untuk menghapus kolom atau variabel yang mengandung kesalahan. Untuk itu, penting
memastikan bahwa data-data yang dihapus bukan merupakan variabel terpenting dari sebuah
kumpulan data. 
Cara ini mungkin terlihat mudah bagi Anda karena hanya perlu melakukan penghapusan pada
data-data yang salah dan hilang. Akan tetapi, apabila data yang Anda kerjakan berjumlah besar,
tentu menghapusnya menjadi pekerjaan yang rumit. Semakin banyak data, semakin banyak
tinggi pula risiko yang dimilikinya.
Artinya, jika data dalam jumlah besar, kemungkinan sebuah data mengalami missing value juga
besar. Apabila solusi yang Anda terapkan hanya dengan menghapus data-data tersebut, tentu ini
bukan pekerjaan yang efisien. Jadi, akan lebih baik apabila Anda melakukan analisis mengapa
data-data tersebut hilang dan di mana Anda bisa menemukannya kembali.

Anda mungkin juga menyukai