Anda di halaman 1dari 33

Challenge 3

Data Science
Group Y Data Science 5
- Timotius Putra Goldvist Sinaga (1955627840-593)
- Vakris Candra Sasmita (1955627840-723)
Challenge 1

Latar Belakang

Di Era Digital ini masyarakat membutuhkan informasi Berikut adalah informasi sekilas mengenai
mengenai perkembangan kasus covid-19 di Indonesia. perkembangan Covid-19 di Indonesia
Oleh karena itu kita hadir untuk menjawab
permasalahan tersebut.
Jumlah kasus covid terbanyak pada provinsi DKI Puncak kasus baru tertinggi tercatat pada bulan Juli
Jakarta mengingat daerah tersebut merupakan provinsi 2021 dan Februari 2022
dengan kepadatan penduduk tinggi sehingga
memperceppat penyebaran covid19
Pada November 2021 terjadi pelandaian kasus
covid19 dikarenakan kebijakan vaksinasi dan
pembatasan sosial yang menekan penyebaran virus
covid 19 dan menurunkan persentase kasus baru
covid19.
Berdasarkan peta ini, dapat disimpulkan sebaran covid19 terbesar terdapat di Pulau Jawa khususnya
Provinsi DKI Jakarta.
Jumlah kasus sembuh didominasi pada daerah di
Pulau Jawa dikarenakan daerah tersebut memiliki
jumlah penduduk yang banyak dibanding pulau lain,
dan penyebarannya tergolong cepat. Di Pulau Jawa
pun memiliki fasilitas kesehatan yang lebih baik
dibanding daerah lainnya.
Challenge 2
Reading the Data

🞆 Menyiapkan libarary yang digunakan : pandas,


numpy, matplotlib, seaborn, statsmodel
🞆 Melakukan pemanggilan data customer churn
Data Cleaning

Checking Data Types


🞆 Melakukan pemeriksaan untuk memastikan tipe
data setiap variable telah sesuai
Data Cleaning

Checking Missing Values


Data Cleaning

Missing Value
🞆 Data tidak mengandung nilai kosong dan dapat ke
tahap data cleaning selanjutnya
Data Cleaning

Deteccting Outliers
Data Cleaning

🞆 Dari hasil output data banyak mengandung outliier


🞆 Karena jumlah banyaknya pencilan tidak terlalu
banyak maka dapat melakukan penghapusan
dengan outlier tersebut
Data Cleaning

Handling Outliers
Data Cleaning

🞆 Setelah dilakukan pembersihan pencilan jumlah


baris yang sebelumnya 4250 menjadi 3482
EDA

🞆 Melakukan pemisahan tipe data


numerical dan tipe data categorical
EDA

🞆 sns.distplot(df_train['account_length'])
🞆 sns.boxplot(df_train['total_day_calls'])
🞆 Sebaran data 'total_day_calls terlihat dari boxplot dan distplot
Distribusi Total Day Minutes
● sns.kdeplot(df_train['total_day_minutes'])
EDA
Perbandingan pelanggan melakukan churn
pelanggan melakukan churn berdasar internasional
plan
pelanggan melakukan churn berdasarkan voice mail
plan
Banyak pelanggan churn berdasarkan kode area
🞆 Jumlah pelanggan melakukan
pemanggilan CS disbanding tingkat
costomer churn
🞆 Jumlah pelanggan melakukan pemanggilan CS
disbanding tingkat costomer churn
🞆 Semakin banyak tingkat costumer churn pada
banyak pemanggilan internasional 2-5
Total day charge berdasarkan pelanggan melakukan
churn
Standarisation Data

🞆 Agar data lebih terpusat dan memudahkan algorima clasifikasi jika sebaran data seragam
Machine Learning

Spliting
🞆 Mendefinisikan variable terikat Y: Churn
🞆 Dan variable x sebagai variable bebas
Machine Learning

Logistic Regression
🞆 Memiliki tingkat akurasi model
87.96%
Machine Learning

Decision Tree
🞆 Memiliki tingkat akurasi model 85.02%
Conclusion

🞆 Dari dua model algoritma ML di atas regresi logistic memiliki tingkat akurasi lebih tinggi disbanding
algoritma Decision Tree
Prediksi Logistik Regression

Anda mungkin juga menyukai