Anda di halaman 1dari 8

1.

Fraud

a. Statistic deskriptif
- Mengubah dulu value fraud_reported ke dalam angka 0 (N), 1 (Y)

- Mengubah fraud_reported ke integer

- Statistic

Nampak untuk data fraud berjumlah 247, sedangkan non-fraud 753.

b. Prediksi model
Saya menggunakan perbandingan 2 algoritma, yaitu naïve bayes dan decision tree.
- Decision tree
- Naïve bayes

Berdasarkan scorer confussion matrix, model naïve bayes akurasinya lebih baik,
yaitu 83% dibanding dengan decision tree. Jadi saya merekomendasikan
menggunakan naïve bayes.

c. ROC

untuk Decission Tree senilai 0.724, sedangkan Naïve Bayes 0.827.

d. Predictor
Jika dilihat berdasarkan correlation, variable yang lebih berpengaruh terhadap
fraud_reported adalah total_claim, injury_claim, property_claim, vehicle_claim
- NB Predictor
2. Churn

a. Produk

Product 2P-netizen memiliki ARPU lebih sedikit disbanding produk 3P.

b. Pelanggan/Umur
c. Imbalance

Untuk data yang churn berjumlah 988 data.

d. Model training, testing

Saya membandingkan DT dengan NB


- DT

- NB

Berdasarkan scorer, akurasi nya lebih baik memakai Decission Tree dengan nilai
99.039 %.
e. Predictor

Berdasarkan gambar diatas, maka predictor yang paling menentukan yaitu Arpu.
Ketika arpu < 35.420 mendapatkan churn (diagram merah) lebih besar, yaitu sekitar
80.4 %.
3. Diabetes
a. Density Plot, Box Plot

b. Correlation

Berdasarkan correlation diattas, variable yang paling berhubungan dengan class


diabetes adalah Glucose.

c. PCA

1 dimension,
d. Scorer

Akurasinya sebesar 70,13 % menggunakan DTree.

e. Decission Tree

Jadi variable/feature yang paling menentukan yaitu glucose. jika glucose > 123.5,
maka positif diabetes nya sebesar 63.9%.

Anda mungkin juga menyukai