POKOK BAHASAN
Tujuan dilakukan reduksi data Tipe dari Reduksi Fitur Melakukan Seleksi Fitur
Reduksi data bertujuan untuk meningkatkan kualitas data. Bekerja dengan data yang memiliki fitur yang relevan dengan permasalahan menjadikan proses data mining menjadi lebih efektif dan efisien. Pada dasarnya fitur-fitur tersebut dipilih dengan tujuan untuk mencapai performansi yang maksimum dengan sedikit usaha.
Semakin sedikit data, algoritma data mining semakin cepat Akurasi dari proses data mining menjadi lebih tinggi sehingga dapat digeneralisasi model yang lebih baik dari data. Hasil dari proses data mining lebih sederhana sehingga mudah dipahami dan digunakan Lebih sedikit fitur sehingga akan penyederhanakan proses pengumpulan data di kemudian hari dengan mereduksi fitur yang redundant dan tidak relevan.
Ada dua hal yang berkenaan dengan menghasilkan fitur yang tereduksi :
Seleksi fitur dapat dilakukan secara manual maupun otomatis Fitur gabungan Contoh fitur gabungan misal antara fitur tinggi dan berat badan seorang pasien digabung menjadi satu fitur yang disebut dengan body-mass index.
Salah satu teknik yang digunakan untuk seleksi fitur adalah berdasarkan pembandingan nilai rata-rata (mean) dan variances. Pada pendekatan dengan cara ini, diasumsikan bahwa fitur bersifat tidak bergantung (independent) dengan fitur yang lain.
Seleksi Fitur
Berikutnya diberikan contoh dua Class A dan B, n1 dan n2 adalah jumlah sample dari kedua class tersebut, maka dapat dinyatakan :
Table berikut, dengan dua input fitur X dan Y, sedangkan fitur C adalah fitur yang mengklasifikasi kelas dari sampel data apakah masuk ke dalam class A atau class B. Dari kedua fitur X dan Y, kita seleksi apakah fitur X ataukah fitur Y yang perlu direduksi. Dimisalkan nilai threshold yang digunakan adalah 0.5.
XA={0.3, 0.6, 0.5} XB={0.2, 0.7, 0.4} YA={0.7,0.6,0.5} dan YB={0.9,0.7, 0.9}
Dari hasil tersebut, diketahui bahwa X adalah fitur yang menjadi kandidat untuk direduksi dikarenakan nilai meannya kurang dari nilai threshold. Sedangkan fitur Y karena nilai perbandingan mean-nya lebih besar dari nilai threshold maka bukan termasuk fitur yang perlu direduksi, karena fitur Y dapat membedakan dua class yang ada pada data dibandingkan dengan fitur X.
Latihan Soal
1.
Jelaskan kemungkinan keuntungan dan kerugian yang didapatkan jika data set berukuran besar dilakukan preprocessing sehingga dimensinya direduksi menjadi berukuran lebih kecil. Diberikan data set X dengan tiga fitur input dan satu fitur output yang merepresentasikan klasifikasi dengan field O sebagai atribut target.
I1 I2 I3 ================= 2 1 5 7 4 2 3 5 1 5 3 6 4 7 3 8 4 8 6 4 2 O 0 1 1 0 1 0 1
2.