04 Reduksi Data1

Anda mungkin juga menyukai

Anda di halaman 1dari 17

IMD

Agregasi

Diskritisasi & Konsep Hirarki

Reduksi Data

Seleksi Atribut

Kompresi Data

Aneka Reduksi

Tujuan : memilih subset (dari set data asli) atribut minimum yang dapat tetap menjaga peluang distribusi dari kelas data yang ditentukan oleh subset minimum, sedekat mungkin dengan peluang distribusi kelas data yang diberikan oleh set data asli. Keuntungan : mereduksi jumlah pola yang dihasilkan sehingga lebih mudah pula untuk dipahami

Memilih berbagai kombinasi subset atribut dari set data asli. Masalahnya kombinasi subset yang mungkin sangat banyak yaitu 2d dengan d = banyaknya jumlah atribut/variabel Memerlukan kriteria penghentian iterasi dalam mencari subset minimum beserta ambang batasnya.

Step-wise forward selection Step-wise backward elimination Combining forward selection and backward elimination Decision-tree induction

Setiap atribut diberi rangking dengan kriteria tertentu, misalkan correlation, mutual information,regresi Atribut dengan ranking tertinggi biasanya dianggap paling berpengaruh, sehingga ia akan diambil untuk masuk dalam proses data mining selanjutnya

Handling Extremely Large Data Anytime Algorithm Stochastic Algorithm

Tujuannya : mentransformasi data, sehingga data asli menjadi lebih tereduksi ( kompresi). Data yang sudah direduksi kelak akan dapat direduksi, walau dalam keadaan lossless ataupun lossy Metoda yang paling terkenal : Wavelet Tranformation, Principal Component Analysis & Rough Set

Merupakan salah satu teknik linear signal

processing

Data X ( x1 , x2 , x3 ,..., xn ), X ' dimana x i ditransformasi menjadi merupakan vektor yang menggambarkan pengukuran pada data set dengan n atribut. Cocok untuk data numerik

Menggunakan teknik aljabar linear Dikenal juga dengan teknik Singular Value Decomposition ( SVD) Tujuannya mencari k vektor ortogonal berukuran n, yang dapat digunakan untuk merepresentasikan data, dimana k n Tidak memilih atribut namun membentuk atribut baru

Tujuan : mereduksi volume data dengan berbagai alternatif ( di luar yang sudah disebutkan sebelumnya) sehingga dapat merepresentasikan data dalam volume yang lebih kecil Terbagi atas 2 metoda:
Parametric Non Parametric

Membentuk model yang dapat menggambarkan data yang dimiliki, sehingga kita dapat menggunakan model tsb untuk mewakili data asli Contohnya : regresi linear,regresi multi linear, log reg,dsb

Model : y Ax B Nilai A dan B dapat diperoleh berdasarkan metoda kuadrat terkecil, sehingga diperoleh rumus sbb :

(x
i 1

x )( y1 y )
i

(x x)
i 1

B y Ax

n = banyaknya data

Ringkasan data Contoh :


Histogram Clustering Sampling

40 35 30 25 20 15 10 5 0
10000 30000 50000 70000 90000

Membagi data dalam kelompokkelompok dan mencatat nilai rata-rata dari tiap kelompok

15

Equal-width: equal bucket range

Equal-frequency (or equal-depth)


V-optimal: with the least histogram variance (weighted sum of the original values that each bucket represents) MaxDiff: set bucket boundary between each pair for pairs have the 1 largest differences

Membagi data menjadi klaster-klaster berdasarkan

similarity dan merepresentasikan data berdasarkan klaster


tersebut, misalnya centroid dan diameternya.

Sangat cocok untuk data yang memang ada klasternya, namun gagal untuk data yang sangat tersebar. Sudah ada teknik hirarkikal klasterisasi yang memungkinkan data direpresentasikan dalam struktur pohon multi dimensi. Contoh algoritma klasterisasi : K-Means, Buckshot, ROCK, CLIQUE , dsb

17

Anda mungkin juga menyukai