Anda di halaman 1dari 16

DATA REDUCTION

DIMENSIONS OF LARGE DATA SETS

 Pemilihan representasi data, seleksi, reduksi atau transformasi fitur adalah


mungkin isu yang penting menentukan kualitas solusi data-mining.

 Selain pengaruh alami dari algoritma data-mining, dia dapat menentukan


apakah masalah dapat dipecahkan seluruhnya, atau bagaimana kekuatan
model hasil dari data mining.

 Dalam praktek, jumlah fitur dapat sebanyak beberapa ratus. Jika kita
mempunyai sedikitnya ratusan contoh untuk analisis, reduksi dimensi
dibutuhkan supaya model dapat diandalkan untuk digali atau menjadi
beberapa penggunaan dalam praktek.

 Di lain pihak, data yg berlebih, sebab dimensi yg tinggi , dapat membuat


beberapa algoritma data-mining tidak dapat diaplikasikan,  solusinya
reduksi dimensi data.
 Tiga dimensi utama dari data set yg diproses di awal,
biasanya direpresentasikan dalam bentuk plain files yaitu
kolom (fitur), baris (kasus atau contoh-contoh), dan nilai dari
fitur.

 Oleh karena itu, tiga operasi dasar dari proses reduksi data
yaitu delete kolom, delete baris, dan kurangi jumlah nilai
di suatu kolom (penghalusan suatu fitur). Operasi-operasi ini
berusaha memelihara karakteristik data asal dengan
penghapusan data yg nonesensial.
 Ada operasi lain yg mereduksi dimensi-dimensi, tetapi data
baru tidak dapat mengenali ketika dibandingkan ke data set
asal.

 Satu pendekatan adalah menggantikan sekumpulan fitur


awal dengan fitur campuran yg baru. Sebagai contoh, jika
contoh-contoh dalam data set mempunyai 2 fitur, tinggi-
orang dan berat-orang, memungkinkan untuk beberapa
aplikasi di domain kedokteran untuk menggantikan 2 fitur
ini, dengan hanya satu, BMI (body-mass-index), yg mana
adalah proporsi hasil bagi dari 2 fitur awal.
Perbandingan keseluruhan didasarkan atas
parameter-parameter berikut untuk analisis:

1. Computing time
Data yang lebih sederhana diharapkan mereduksi waktu yang diambil
untuk data mining.
2. Predictive/ descriptive accuracy
Ukuran ini mendominasi bagi kebanyakan model datamining, oleh karena
mengukur seberapa baik data disimpulkan dan digeneralisir ke dalam
suatu model.
3. Representation of the data mining model.
Kesederhanaan representasi, biasanya diperoleh dengan reduksi data,
sering berakibat bahwasannya suatu model dapat lebih baik dimengerti.
Kesederhanaan dari pemodelan dan hasil lain bergantung pada
representasinya. Oleh karena itu, jika kesederhanaan dari representasi
meningkat, penurunan akurasi relatif kecil mungkin dapat ditoleransi.
 Hal yang ideal adalah jika dapat mereduksi waktu, meningkatkan
akurasi dan representasi sederhana pada waktu yg sama,
menggunakan reduksi dimensi. Namun tidak ada metode reduksi data
yg tunggal dapat paling cocok untuk semua aplikasi.

 Keputusan tentang pemilihan metode seleksi didasarkan atas


pengetahuan yg ada tentang suatu aplikasi (relevant data, noise data,
meta-data, fitur yg berhubungan), dan constraint waktu yg diminta
untuk solusi akhir.
Feature Reduction
 Pada dasarnya, kita memilih fitur yg relevan pada aplikasi data-mining
agar supaya mencapai hasil yang maksimum dengan ukuran dan usaha
pemrosesan minimum. Suatu proses reduksi fitur harus menghasilkan:

1. Data yang lebih kecil sehingga algoritma data-mining dapat


mempelajari lebih cepat

2. Akurasi dari proses data-mining lebih tinggi sehingga model dapat


mengeneralisasi lebih baik dari data

3. Hasil sederhana dari proses data-mining sehingga mereka lebih mudah


untuk mengerti dan menggunakan

4. Fitur lebih kecil sehingga rentetan berikutnya dari kumpulan data,


suatu penghematan dapat dibuat dengan menghilangkan redundansi
atau fitur yang tidak relevan
 Dua tugas standar dikaitkan dengan produksi kumpulan fitur,
dan mereka diklasifikasikan sebagai:
 Feature selection – berdasar pada pengetahuan dari domain
aplikasi dan tujuan-tujuan dari usaha mining, human analyst
mungkin memilih bagian dari fitur yg ditemukan di data set awal.
Proses dari seleksi fitur dapat manual atau didukung oleh beberapa
prosedure otomatis

 Feature composition – transformasi data yg dapat mempunyai


pengaruh yg kuat mengejutkan atas hasil metode data-mining.
Dalam pengertian ini, komposisi dari fitur adalah faktor penentu
yang lebih besar dalam kualitas hasil2 data-mining dari teknik
mining khusus.
Feature Selection
 Perbedaaan metoda-metoda pemilihan fitur akan memberikan perbedaan data set
tereduksi, dan secara global mengklasifikasikan seluruh metoda ini menjadi 2:
algoritma feature-rangking dan algoritma minimum subset.

 Algoritma feature-rangking.
 Daftar fitur terurut yg disusun menurut ukuran evaluasi ukuran khusus. Suatu ukuran dapat digunakan
atas akurasi data yg tersedia, konsistensi, isi informasi, jarak antar contoh dan terakhir, secara statistik
bergantung antara fitur-fitur.
 Algoritma ini tidak memberitahukan apakah kumpulan fitur minimum untuk analisa lebih lanjut;
mereka mengindikasikan relevansi fitur dibanding pada yang lainnya.

 Algoritma subset minimum


 Mendapatkan subset fitur minimum dan tidak ada perbedaan dibuat diantara fitur-fitur dalam subset
semua mampunyai rangking yg sama.
 Fitur-fitur dalam subset relevan bagi proses mining; yg lainnya tidak relevan.

 Di kedua jenis algoritma ini, penting untuk membangun skema fitur-evaluasi: cara di
mana fitur dievaluasi dan kemudian dirangking, atau ditambahkan ke subset terpilih.
 Seleksi fitur secara umum dapat digambarkan sebagai masalah pencarian, dengan
setiap state di area pencarian khusus subset dari fitur yg mungkin. Jika, suatu data
set mempunyai 3 fitur {A1, A2, A3}, dan proses seleksi fitur-fitur, keberadaan fitur
dikodekan 1 dan keabsenannya dengan 0, sehingga ada 23 subset reduksi fitur
dikodekan dengan {0, 0, 0}. {1, 0, 0}, { 0,1, 0}, {0, 0, 1}, {1, 1, 0}, {1, 0, 1}, {0, 1, 1}, dan
{1, 1, 1}. Masalah seleksi fitur adalah relatifsepeleh jika ruang pencarian kecil, oleh
karena kita dapat menganalisa seluruh subset dibeberapa perintah dan suatu
pencarian akan lengkap dalam waktu singkat.

 Namun pencarian biasanya 2N di mana jumlah dimensi N di aplikasi data-mining


adalah besar (N>20). Exhaustive search dari seluruh subset fitur sangat sering
digantikan dengan prosedur heuristic search. Penggunaan pengetahuan masalah,
prosedur-prosedur ini menemukan subset fitur yang memperbaiki lebih lanjut
meningkatkan kualitas proses data mining.

 Tujuan seleksi fitur adalah menemukan subset fitur dengan performa data mining
dapat dibandingkan pada kumpulan fitur utuh.
 Aplikasi seleksi fitur dan reduksi dimensi data membantu
seluruh fase proses data mining untuk penemuan
pengetahuan yg berhasil dilakukan.

 Dimulai pada fase preprocessing, tetapi di beberapa


kesempatan, seleksi fitur dan reduksi adalah bagian dari
algoritma data-mining, meskipun dia diaplikasikan di
postprocessing untuk evaluasi dan konsulidasi hasil yg
dicapai lebih baik.
Entropy Measure for Ranking Features

 Suatu metoda untuk seleksi unsupervised fitur atau merangking


berdasarkan ukuran entropy adalah teknik yg relatif sederhana; tapi dg
jumlah fitur yang besar menambahkan kekomplekannya secara signifikan
.
 Asumsi dasar adalah semua contoh diberikan sebagai vektor tanpa
adanya klasifikasi dari output sample.

 Pendekatan didasarkan atas observasi pembuangan fitur yang tidak


relevan, fitur redundan, atau keduanya dari kemungkinan yg tidak
mengubah karakteristik data set.

 Algoritma didasarkan atas ukuran similarity S yang berbanding terbalik


dengan jarak D antara dua n-dimensional sample. Ukuran jarak D kecil,
dekat dengan contoh, dan yang besar untuk perbedaan pasangan.
, namun sering digunakan konstanta

 Ada 2 formula yg dipakai untuk mengukur


similarity terhadap fitur: data numerik dan non
numerik (kategori).
1. Data numerik:
Similarity (S)
dimana: e=2.7183;
Namun sering digunakan sebagai konstanta
Dan ukuran jarak D didapatkan:
2. Data non-numerik

Di mana |xij=xjk| adalah 1 jika xij=xjk, dan sebaliknya 0.


Jumlah variable adalah n.
Sample F1 F2 F3
R1 R2 R3 R4 R5
R1 A X 1
R2 B Y 2 R1 0/3 0/3 2/3 0/3
R3 C Y 2 R2 2/3 1/3 0/3
R4 B X 1 R3 0/3 1/3
R5 C Z 3 R4 0/3

Data set dgn 3 fitur kategori Tabel ukuran similarity Sij diantara samples
 Nilai Entropy yang digunakan untuk rangking fitur
adalah:

 Kedekatan suatu fitur ditunjukan semakin kecilnya


perbedaan nilai entropy.
Thank You

Anda mungkin juga menyukai