Dibuat Oleh : 1612501468 – M.Febriyan Dwiki Prayoga
Matakuliah : Penambangan Data
Kelompok : AC Dosen : Dr. Rusdah, S.Kom., M.Kom.
Universitas Budi Luhur
Fakultas Teknologi Informasi Jakarta 2019 Soal 1. Lakukan eksplorasi data, laporkan fakta-fakta yang Anda anggap menarik dalam data tersebut. 2. Lakukan pre-processing data bila diperlukan. 3. Klasifikasikan data tersebut dengan C4.5, sajikan hasil dalam bentuk Tree dan Rule. Bandingkan mode test percentage split dan 10-fold Cross Validation. Gunakan dataset asli dan dataset hasil point (2) bila ada. 4. Lakukan feature selection dengan menggunakan wrapper method dengan classifier C4.5, KNN, dan Naive Bayes. Simpan hasil dalam format .arff terpisah. 5. Lakukan perbandingan dengan menggunakan dataset asli, dan 3 dataset hasil point (4). Laporkan hasil perbandingan. Jawaban 1. Data disini menjelaskan tentang Data Set Asuransi Kendaraan yang berjumlah 140 record dan masih dalam format .xlsx, jadi solusinya di save dengan format .csv agar bisa terbaca di WEKA.
Terdiri dari 11 attribute yaitu : YearOfManufacturing, PeriodPolicy,
- Kebanyakan mobil yang asuransi dalam data ini yaitu mobil yang dibuat di bawah tahun 2010 dengan jumlah 88 dan 52 data untuk mobil diatas tahun 2010 - Period Policy / Kebijakan Periode asuransi kendaraan ini yang paling kecil adalah 1 dan yang paling besar adalah 5. Nilai tengahnya adalah 3.75 - Untuk Customernya sendiri kebanyakan adalah perusahaan dengan jumlah 123 dan 17 untuk umum - Untuk jenis mobil yang di asuransikan kebanyakan dari Multi Proposed Vehicle / Kendaraan serbaguna dengan jumlah 90, disusul dengan mobil sedan dengan jumlah 41, lalu mobil truck dengan jumlah 6, minibus berjumlah 2, dan terakhir adalah mobil pickup dengan jumlah 1 - Kebanyakan jenis klaim yang asuransi kendaraan adalah tidak ada klaim dengan jumlah 70, insiden kecelakaan/kehilangan berjumlah 69, insiden pencurian berjumlah 1. - Kebanyakan uang yang pertanggungan/uang untuk asuransi kendaraan adalah berjumlah dibawah 300 juta sebanyak 123 dan diatas 300 juta s.d 1 miliar sebanyak 17 - Kebanyakan untuk jumlah yang mengklaim kendaraan pada asuransi kendaraan ini adalah tidak ada claim sebanyak 70, kecil sebanyak 60, dan besar sebanyak 10. - Untuk RatioClaim kendaraan pada asuransi ini adalah rendah dengan jumlah 118 dan besar dengan jumlah 22. - Untuk LossRatio kendaraan pada asuransi kendaraan ini adalah rendah dengan jumlah 80 dan besar dengan jumlah 60. - Untuk ClaimFrekuensi kendaraan pada asuransi kendaraan ini kebanyakan yang tidak claim sebanyak 70, yang klaim lebih dari 1 kali sebanyak 56, dan klaim hanya 1 kali sebanyak 14. - Untuk Renewal / Pembaruan Asuransi kendaraan berjumlah 103 untuk YES/ya dan NO/tidak berjumlah 37.
2. Sesudah melakukan preprocessing data didapatkan hasil sebagai berikut :
Untuk hasil masing masing attribute dengan menggunakan filter none, supervised discrete, dan unsupervised discrete semuanya sama kecuali pada attribute PeriodPolicy.