04 Reduksi Data1
04 Reduksi Data1
04 Reduksi Data1
Agregasi
Reduksi Data
Seleksi Atribut
Kompresi Data
Aneka Reduksi
Tujuan : memilih subset (dari set data asli) atribut minimum yang dapat tetap menjaga peluang distribusi dari kelas data yang ditentukan oleh subset minimum, sedekat mungkin dengan peluang distribusi kelas data yang diberikan oleh set data asli. Keuntungan : mereduksi jumlah pola yang dihasilkan sehingga lebih mudah pula untuk dipahami
Memilih berbagai kombinasi subset atribut dari set data asli. Masalahnya kombinasi subset yang mungkin sangat banyak yaitu 2d dengan d = banyaknya jumlah atribut/variabel Memerlukan kriteria penghentian iterasi dalam mencari subset minimum beserta ambang batasnya.
Step-wise forward selection Step-wise backward elimination Combining forward selection and backward elimination Decision-tree induction
Setiap atribut diberi rangking dengan kriteria tertentu, misalkan correlation, mutual information,regresi Atribut dengan ranking tertinggi biasanya dianggap paling berpengaruh, sehingga ia akan diambil untuk masuk dalam proses data mining selanjutnya
Tujuannya : mentransformasi data, sehingga data asli menjadi lebih tereduksi ( kompresi). Data yang sudah direduksi kelak akan dapat direduksi, walau dalam keadaan lossless ataupun lossy Metoda yang paling terkenal : Wavelet Tranformation, Principal Component Analysis & Rough Set
processing
Data X ( x1 , x2 , x3 ,..., xn ), X ' dimana x i ditransformasi menjadi merupakan vektor yang menggambarkan pengukuran pada data set dengan n atribut. Cocok untuk data numerik
Menggunakan teknik aljabar linear Dikenal juga dengan teknik Singular Value Decomposition ( SVD) Tujuannya mencari k vektor ortogonal berukuran n, yang dapat digunakan untuk merepresentasikan data, dimana k n Tidak memilih atribut namun membentuk atribut baru
Tujuan : mereduksi volume data dengan berbagai alternatif ( di luar yang sudah disebutkan sebelumnya) sehingga dapat merepresentasikan data dalam volume yang lebih kecil Terbagi atas 2 metoda:
Parametric Non Parametric
Membentuk model yang dapat menggambarkan data yang dimiliki, sehingga kita dapat menggunakan model tsb untuk mewakili data asli Contohnya : regresi linear,regresi multi linear, log reg,dsb
Model : y Ax B Nilai A dan B dapat diperoleh berdasarkan metoda kuadrat terkecil, sehingga diperoleh rumus sbb :
(x
i 1
x )( y1 y )
i
(x x)
i 1
B y Ax
n = banyaknya data
40 35 30 25 20 15 10 5 0
10000 30000 50000 70000 90000
Membagi data dalam kelompokkelompok dan mencatat nilai rata-rata dari tiap kelompok
15
Sangat cocok untuk data yang memang ada klasternya, namun gagal untuk data yang sangat tersebar. Sudah ada teknik hirarkikal klasterisasi yang memungkinkan data direpresentasikan dalam struktur pohon multi dimensi. Contoh algoritma klasterisasi : K-Means, Buckshot, ROCK, CLIQUE , dsb
17