Dalam praktek, jumlah fitur dapat sebanyak beberapa ratus. Jika kita
mempunyai sedikitnya ratusan contoh untuk analisis, reduksi dimensi
dibutuhkan supaya model dapat diandalkan untuk digali atau menjadi
beberapa penggunaan dalam praktek.
Oleh karena itu, tiga operasi dasar dari proses reduksi data
yaitu delete kolom, delete baris, dan kurangi jumlah nilai
di suatu kolom (penghalusan suatu fitur). Operasi-operasi ini
berusaha memelihara karakteristik data asal dengan
penghapusan data yg nonesensial.
Ada operasi lain yg mereduksi dimensi-dimensi, tetapi data
baru tidak dapat mengenali ketika dibandingkan ke data set
asal.
1. Computing time
Data yang lebih sederhana diharapkan mereduksi waktu yang diambil
untuk data mining.
2. Predictive/ descriptive accuracy
Ukuran ini mendominasi bagi kebanyakan model datamining, oleh karena
mengukur seberapa baik data disimpulkan dan digeneralisir ke dalam
suatu model.
3. Representation of the data mining model.
Kesederhanaan representasi, biasanya diperoleh dengan reduksi data,
sering berakibat bahwasannya suatu model dapat lebih baik dimengerti.
Kesederhanaan dari pemodelan dan hasil lain bergantung pada
representasinya. Oleh karena itu, jika kesederhanaan dari representasi
meningkat, penurunan akurasi relatif kecil mungkin dapat ditoleransi.
Hal yang ideal adalah jika dapat mereduksi waktu, meningkatkan
akurasi dan representasi sederhana pada waktu yg sama,
menggunakan reduksi dimensi. Namun tidak ada metode reduksi data
yg tunggal dapat paling cocok untuk semua aplikasi.
Algoritma feature-rangking.
Daftar fitur terurut yg disusun menurut ukuran evaluasi ukuran khusus. Suatu ukuran dapat digunakan
atas akurasi data yg tersedia, konsistensi, isi informasi, jarak antar contoh dan terakhir, secara statistik
bergantung antara fitur-fitur.
Algoritma ini tidak memberitahukan apakah kumpulan fitur minimum untuk analisa lebih lanjut;
mereka mengindikasikan relevansi fitur dibanding pada yang lainnya.
Di kedua jenis algoritma ini, penting untuk membangun skema fitur-evaluasi: cara di
mana fitur dievaluasi dan kemudian dirangking, atau ditambahkan ke subset terpilih.
Seleksi fitur secara umum dapat digambarkan sebagai masalah pencarian, dengan
setiap state di area pencarian khusus subset dari fitur yg mungkin. Jika, suatu data
set mempunyai 3 fitur {A1, A2, A3}, dan proses seleksi fitur-fitur, keberadaan fitur
dikodekan 1 dan keabsenannya dengan 0, sehingga ada 23 subset reduksi fitur
dikodekan dengan {0, 0, 0}. {1, 0, 0}, { 0,1, 0}, {0, 0, 1}, {1, 1, 0}, {1, 0, 1}, {0, 1, 1}, dan
{1, 1, 1}. Masalah seleksi fitur adalah relatifsepeleh jika ruang pencarian kecil, oleh
karena kita dapat menganalisa seluruh subset dibeberapa perintah dan suatu
pencarian akan lengkap dalam waktu singkat.
Tujuan seleksi fitur adalah menemukan subset fitur dengan performa data mining
dapat dibandingkan pada kumpulan fitur utuh.
Aplikasi seleksi fitur dan reduksi dimensi data membantu
seluruh fase proses data mining untuk penemuan
pengetahuan yg berhasil dilakukan.
Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples
Nilai Entropy yang digunakan untuk rangking fitur
adalah: