Fraud
Fraud
Fraud
a. Statistic deskriptif
- Mengubah dulu value fraud_reported ke dalam angka 0 (N), 1 (Y)
- Statistic
b. Prediksi model
Saya menggunakan perbandingan 2 algoritma, yaitu naïve bayes dan decision tree.
- Decision tree
- Naïve bayes
Berdasarkan scorer confussion matrix, model naïve bayes akurasinya lebih baik,
yaitu 83% dibanding dengan decision tree. Jadi saya merekomendasikan
menggunakan naïve bayes.
c. ROC
d. Predictor
Jika dilihat berdasarkan correlation, variable yang lebih berpengaruh terhadap
fraud_reported adalah total_claim, injury_claim, property_claim, vehicle_claim
- NB Predictor
2. Churn
a. Produk
b. Pelanggan/Umur
c. Imbalance
- NB
Berdasarkan scorer, akurasi nya lebih baik memakai Decission Tree dengan nilai
99.039 %.
e. Predictor
Berdasarkan gambar diatas, maka predictor yang paling menentukan yaitu Arpu.
Ketika arpu < 35.420 mendapatkan churn (diagram merah) lebih besar, yaitu sekitar
80.4 %.
3. Diabetes
a. Density Plot, Box Plot
b. Correlation
c. PCA
1 dimension,
d. Scorer
e. Decission Tree
Jadi variable/feature yang paling menentukan yaitu glucose. jika glucose > 123.5,
maka positif diabetes nya sebesar 63.9%.