com
Abstrak
Meskipun data modern sering kali menyediakan sejumlah besar informasi, sebagian besar wawasan
mungkin berlebihan atau tidak berguna (noise). Dengan demikian, penting untuk mengenali fitur data yang
paling informatif. Ini akan membantu analisis data dengan menghilangkan konsekuensi dari dimensi tinggi,
selain memperoleh keuntungan lain dari data dimensi yang lebih rendah seperti biaya komputasi yang lebih
rendah dan model yang kurang kompleks. Data modern memiliki dimensi, sparity dan korelasi yang tinggi
disamping karakteristiknya yang tidak terstruktur, terdistorsi, korup, deformasi, dan masif. Ekstraksi fitur
selalu menjadi penyebab utama dalam aplikasi pembelajaran mesin. Karena fitur-fitur luar biasa dari data
modern ini, model dan teknik ekstraksi fitur dan reduksi fitur menjadi lebih penting dalam menganalisis dan
memahami data.
Kata kunci:Data Modern, Pengurangan Fitur, Dekomposisi Nilai Singular, Regularisasi, Analisis
Komponen utama
1. Perkenalan
Pengurangan fitur dan semua topik terkait pemilihan fitur, ekstraksi fitur atau pengurangan
dimensi memiliki sejarah panjang dalam analisis statistik [22]. Tujuan utama penerapan reduksi fitur
adalah untuk mengurangi jumlah data dan kompleksitasnya, menghemat waktu dan biaya, serta
membuat analisis lebih efektif dan sederhana.
Ada berbagai algoritma dan model yang digunakan untuk pengurangan fitur. Beberapa algoritma
tersebut antara lain yang menggunakan clustering, CUR, PCA/SVD [22].
Dalam karya ini, matriks data X dari m dengan n dimensi didefinisikan dengan m barisnya
yang disebut pengguna (objek, pengamatan, pelanggan, Item, pengukuran, ulangan Catatan).
Data matriks n kolom disebut fitur (variabel, kovariat, prediktor, dimensi, atribut, faktor, regresi,
input, bidang, dan sebagainya).
Seleksi dan peer-review di bawah tanggung jawab Komite Program Ilmiah ICCS 2015 © 2417
c. Para Penulis. Diterbitkan oleh Elsevier BV
doi:10.1016/j.procs.2015.05.424
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
Sifat data modern dengan tingkat ketersebaran yang tinggi dan dimensi yang tinggi menimbulkan kesulitan
besar lainnya untuk ilmu data karena definisi jarak dan karenanya persamaan/ketidaksamaan tidak terdefinisi
dengan baik untuk data berdimensi tinggi dan jarang. Karena faktanya data terletak di dimensi tinggi dan
juga sangat jarang, titik data cenderung berada di tepi ruang dimensi tinggi dan dengan demikian jaraknya
sangat besar. Akibatnya, metrik jarak biasa akan menghitung jarak titik data menjadi maksimum dan semua
objek dirender menjadi berbeda.
Karena distribusi derau Gaussian bukanlah asumsi yang valid untuk data modern, banyak model yang
tersedia yang didasarkan pada asumsi distribusi Gaussian, tidak dapat langsung diterapkan pada analisis dan
pemodelan data modern.
Padahal, data modern memiliki beberapa sifat menguntungkan yang dapat membantu kita dalam pemodelan dan
analisisnya. Beberapa fitur bermanfaat ini adalah:
1. Konsentrasi ukuran
2. Keberadaan struktur
3. Ukuran besar
4. Korelasi Tinggi
5. Defisiensi Rand dari data matriks X, yaitu
rank(X)<< min(m,n), menunjukkan X berkondisi sangat buruk.
Tugas utama pembelajaran mesin adalah membuat wawasan yang dapat ditindaklanjuti dan berguna dari
sejumlah besar data modern. Data memiliki dimensi yang sangat besar yang mewakili banyak pengetahuan dan
informasi. Di masa lalu, jumlah data yang dikumpulkan terbatas dan sebagian besar dikumpulkan melalui
2418
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
eksperimen terkontrol dan dilakukan dengan hati-hati sehingga pada dasarnya data terpilih yang ditargetkan akan diamati
atau diukur. Data yang dikumpulkan dengan cara ini sebagian besar adalah data yang sangat relevan dengan analisis untuk
tujuan pengumpulan data tersebut. Namun, hari ini, kami memiliki akses ke volume data yang sangat besar, sebagian karena
biaya pengumpulan data dapat diabaikan.
Padahal, sebagai akibatnya kami mengumpulkan banyak data (noise) yang tidak relevan. Tapi bagaimana kita
tahu bagian mana dari data yang memiliki pengetahuan informasi tersembunyi tentang metrik (fenomena) yang kita
minati dan bagian mana dari data yang tidak. Ini sangat penting untuk mengenali bagian data yang berdampak pada
metrik kami. Ini, tidak sedikit, penting karena kutukan dimensi yang membuat analisis data menjadi tidak mungkin.
Alasan bagus lainnya untuk ini adalah untuk menghemat penyimpanan, membuat analisis lebih cepat dan lebih
stabil, serta memberikan pemahaman data yang lebih intuitif.
Sebagai contoh penggunaan ekstraksi fitur dalam pembelajaran mesin adalah untuk mengetahui atribut pengguna atau
sesi kunjungan mana yang memiliki paling signifikan sehubungan dengan area umum penargetan dan kampanye online
yang lebih efisien. Dengan mengenali fitur-fitur penting ini, kami dapat menekankan lebih banyak sumber daya dan berfokus
pada mereka untuk membuat kampanye online kami lebih efektif.
Ada banyak metode untuk pemilihan fitur di bidang pembelajaran mesin, penambangan data, dan
analisis data. Metode ini dibagi menjadi dua kelas seleksi fitur terawasi dan tidak terawasi. Untuk
pendekatan pemilihan fitur tanpa pengawasan, tidak seperti yang diawasi, data tidak diberi label dalam
arti bahwa tidak ada keluaran khusus atau aplikasi tertentu dari data dalam pikiran saat menggunakan
model pemilihan fitur. Pembagian lain dari metode pemilihan fitur didasarkan pada apakah kita
memilih fitur baru, meskipun jumlahnya lebih kecil, yang merupakan kombinasi dari fitur lama atau kita
memilih subbagian dari fitur asli. Metode pertama disebut "pemilihan fitur" dan jenis pendekatan
terakhir disebut "ekstraksi fitur". Ekstraksi fitur memiliki keuntungan mengenali kelompok yang lebih
kecil dari fitur asli dan dengan demikian terkait langsung dengan data asli. Metode pemilihan fitur
menggunakan beberapa kombinasi dari fitur asli, sehingga membuat interpretasi fitur baru menjadi
tidak mudah. Kedua pendekatan "pengurangan fitur" dari "pemilihan fitur" dan "ekstraksi fitur" adalah
contoh data "pengurangan dimensi".
Secara umum, dan untuk kedua jenis model reduksi fitur, kami memiliki dua kriteria korelasi dan
variasi data dalam pikiran. Dalam artian fitur yang direduksi harus mewakili korelasi dan atau variasi
dari data asli dengan baik. Dalam memilih model dan algoritme terbaik untuk pengurangan fitur,
sering kali ada tradeoff antara representasi variasi dan korelasi dari data asli di ruang baru. Dengan
kata lain, proyeksi data ke ruang dimensi tereduksi mempertimbangkan proyeksi atau aproksimasi
terbaik dari data dengan memiliki variasi dan korelasi data sebagai fungsi tujuan yang akan
dioptimalkan.
Pada bagian ini, kami menjelaskan model ekstraksi fitur yang didasarkan pada analisis komponen utama
dari matriks data X kami. PCA menggunakan dekomposisi nilai tunggal dari X terpusat dan dengan demikian
setara dengan SVD untuk tujuan pekerjaan ini.
Untuk sembarang matriks X (m kali n), SVD ada dan unik hingga tanda-tandanya. Dekomposisi nilai
singular untuk matriks data X adalah;
2419
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
= =
dan D = diag ( , ,… , ) dengan vektor tunggal;
. 0
Menggunakan ambang batas (seringkali 80% -90%) untuk jumlah variasi data asli yang dijelaskan oleh
fitur baru mengarah pada pemilihan sejumlah kecil (k) fitur baru. Fitur-fitur baru ini berisi kombinasi
berbobot dari semua fitur asli. Dengan demikian, SVD tidak dapat langsung digunakan untuk ekstraksi
fitur karena fitur baru (kolom U) menggabungkan fitur asli (kolom X). Dalam pekerjaan ini, kami
menerapkan batasan peringkat pada dekomposisi nilai tunggal untuk hanya memiliki sejumlah faktor
bukan nol yang dipilih dalam setiap koordinat utama baru (kolom U). Ini akan mengarah pada ekstraksi
fitur asli dengan signifikansinya. Model mengikuti langkah-langkah berikut;
Langkah (1) Penyelesaian matriks: Semua nilai matriks X yang hilang dihitung pada langkah ini menggunakan algoritma svd
iteratif [60]. Algoritma memiliki langkah-langkah berikut:
menggunakan yang baru dihitung , kami memiliki nilai baru untuk entri yang hilang.
( ) - () / ()
untuk kecil.
argmin( , , ) .. = =1
Dengan batasan peringkat;
dan
2420
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
Karena komputasi norma-nol adalah masalah sulit NP dan dengan demikian tidak layak, kami
menggunakan kendala pengganti (norma kedua), atau setara
dan
Demikian pula, karena perhitungan norma-nol tidak dapat dilacak, kendala pengganti dari norma satu
digunakan. [32,33,60]
4 Hasil
Model di bagian 3 telah diterapkan pada dua set data yang berbeda. Contoh pertama adalah matriks 2722x122 yang
berisi lamanya waktu yang dihabiskan oleh pengguna di berbagai situs (variabel).
Gambar 1 menunjukkan fitur yang paling signifikan dengan signifikansinya.
Contoh kedua adalah matriks data berdimensi 75715×12 yang berisi konversi kampanye iklan yang
berbeda untuk berbagai wilayah (variabel). Gambar 2 menunjukkan fitur yang paling signifikan dengan
signifikansinya untuk kumpulan data kedua.
0,5
0,45
0.4
0.35
0,3
0,25
0.2
0,15
0.1
0,05
0
Variabel 3
Variabel67
Variabel 14
Variabel 42
Variabel 25
Variabel 39
Variabel 61
Variabel 34
Variabel 18
Variabel 22
Variabel 52
Variabel 81
Variabel 27
Variabel 47
Variabel 104
Variabel 104
Gambar 1. fitur yang paling signifikan dengan signifikansinya untuk matriks data di
Contoh 1. 2421
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
0,3
0,25
0.2
0,15
0.1
0,05
0
Variabel Variabel Variabel Variabel Variabel Variabel Variabel
427938 10
Gambar 2. fitur yang paling signifikan dengan signifikansinya untuk matriks data di
Contoh2.
.
Pengujian dilakukan dengan menggunakan fitur yang diekstraksi untuk komputasi SVD (PCA). Kami melihat
perbedaan antara k-rank svd untuk kedua kasus dalam hal kesalahan relatif berdasarkan perbedaan Euclidean
antara koordinat baru dalam kedua kasus.
Referensi
[1] A. Bjorck, "Metode Numerik untuk Masalah Kuadrat Terkecil", SIAM, Philadelphia, 1996.
[2] S. Boyd dan L. Vandenberghe, "Optimasi Cembung", Cambridge University Press, 2004.
[3] PA Businger, GH Golub, "Dekomposisi nilai tunggal dari Matriks kompleks",
Algoritma 358, Comm. Acm, No. 12, hlm. 564-565, 1969.
[4] J. Cadima dan IT Jolliffe, “Pemuatan dan korelasi dalam interpretasi komponen
utama”, Jurnal Statistik Terapan, 22:203–214, 1995.
[5] EJ Cand s and T. Tao, “Decoding by linear programming”, IEEE Transactions on
Information Theory, 51(12):4203–4215, 2005.
[6] R. Courant dan D. Hilbert, "Metode Fisika Matematika", Vol. II, Interscience, New York,
1953.
[7] AR Davies dan MF Hassan, “Optimalitas dalam regularisasi masalah invers yang tidak tepat”,
dalam PC Sabatier (Ed.), Inverse Problems: Sebuah studi interdisipliner, Academic
2422
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
[29] TA Hua dan RF Gunst, "Regresi punggungan umum: Catatan tentang parameter
punggungan negatif," Comm. Statistik. Metode Teori, 12, hlm. 37-45, 1983.
2423
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
[30] Jeffers, J., "Dua Studi Kasus dalam Penerapan Komponen Utama," Statistik Terapan,
16, 225–236, 1967.
[31] Jolliffe, I. , Analisis Komponen Utama, New York: Springer Verlag, 1986
[32] Joli
the lasso', Jurnal Statistik Komputasi dan Grafis 12 531-547.
[33] IT Jolliffe, NT Trendafilov, dan M. Uddin, “Sebuah teknik komponen utama yang dimodifikasi
berdasarkan LASSO,” Journal of Computational and Graphical Statistics, 12:531–547, 2003.
[34] M. Journ ée, Y. Nesterov, P. Richt árik, dan R. Sepulchre, “Metode daya umum untuk analisis
komponen utama yang jarang,” arXiv:0811.4724, 2008.
[35] Misha E. Kilmer dan Dianne P. OLeary, "Memilih parameter regularisasi dalam metode
iteratif untuk masalah yang diajukan," SIAM J. MATRIX ANAL. APL., Vol. 22, No. 4, hlm.
1204-1221. 2001.
[36] Andreas kirsch, "Sebuah Pengantar teori Matematika dari masalah Invers," Springer
Verlag, New York, 1996.
[37] Mardia, K., Kent, J., dan Bibby, J., "Analisis Multivariat," New York: Academic Press,
1979.
[38] McCabe, G., "Variabel Utama," Technometrics, 26, 137-144, 1984.
[39] Kourosh Modarresi dan Gene H Golub, "Solusi Adaptif dari Masalah Invers Linear",
Prosiding Desain Masalah Invers dan Simposium Optimasi (IPDO2007), 16-18 April,
Miami Beach, Florida, hlm. 333-340, 2007.
[40] Kourosh Modarresi, “Metode Regularisasi Lokal Menggunakan Beberapa Tingkat Regularisasi”,
Stanford, CA, April 2007.
[41] Kourosh Modarresi dan Gene H Golub, “An Efficient Algorithm for the Determination of
Multiple Regularization Parameters,” Proceedings of Inverse Problems Design and
Optimization Symposium (IPDO), 16-18 April 2007, Miami Beach, Florida, hlm. 395 -402,
2007.
[42] DW Marquardt, "Invers umum, regresi punggungan, estimasi linier bias," dan
estimasi nonlinier, Technometrics, 12, hlm. 591-612, 1970.
[43] K. Miller, "Metode Kuadrat Terkecil untuk Masalah yang Diberikan dengan ikatan yang ditentukan," SIAM J.
Math. Anal., No. 1, hlm. 52-74, 1970.
[44] B. Moghaddam, Y. Weiss, dan S. Avidan, "Batas spektral untuk PCA yang jarang: algoritma yang tepat
dan serakah," Kemajuan dalam Sistem Pemrosesan Informasi Saraf, 18, 2006.
[45] VA Morozov, "Pada solusi persamaan fungsional dengan metode
regularisasi", Sov. Matematika. Dokl., 7, hlm. 414-417, 1966.
[46] VA Morozov, “Metode untuk Memecahkan Masalah yang Diberikan dengan Salah,” Springer-Verlag, New
York, 1984.
[47] BK Natarajan, “Solusi perkiraan jarang untuk sistem linier,” SIAM J. Comput.,
24(2):227–234, 1995.
[48] RL Parker , "Memahami teori terbalik," Ann. Pdt. Planet Bumi. Sci., No. 5, hlm. 35-64,
1977.
[49] R. Raina, A. Battle, H. Lee, B. Packer, dan A. Ng. Pembelajaran otodidak: mentransfer pembelajaran dari data yang
tidak berlabel. Dalam Konferensi Internasional ke-24 tentang Pembelajaran Mesin, 2007.
[50] T. Raus, "Prinsip residual dalam solusi masalah yang diajukan dengan operator
nonselfadjoint," Uchen. Pertengkaran. Tartu Gos. Univ., 75, hlm. 12-20, 1985.
[51] T. Reginska, “Parameter Regularisasi dalam Masalah Diskrit Ill-Posed,” SIAM J. Sci.
Komputasi, No. 17, hlm. 740-749, 1996.
[52] A. Tarantola dan B. Valette , "Masalah invers nonlinier umum diselesaikan dengan menggunakan kriteria
kuadrat terkecil," Tinjauan Geofisika dan Fisika Luar Angkasa, No. 20, hlm. 219-232, 1993.
[53] Tibshirani, R., "Penyusutan Regresi dan Seleksi melalui Lasso," Jurnal Royal
Statistical Society, Seri B, 58, 267-288, 1996.
2424
Ekstraksi Fitur Tanpa Pengawasan menggunakan Dekomposisi Nilai Singular Kourosh Modarresi
[54] AN Tikhonov, “Pemecahan Masalah yang Dirumuskan Secara Salah dan Metode Regularisasi,”
Matematika Soviet. Dokl., 4(1963), hlm. 1035-1038; Terjemahan bahasa Inggris dari Dokl. akad. Nauk.
SSSR, 151 (1963), hlm. 501-504, 1963.
[55] AN Tikhonov, "Regularisasi masalah yang diajukan secara tidak benar," Dokl. akad. Nauk. SSSR,
153, (1963), hlm. 49-52= Matematika Soviet. Dokl., 4, 1963.
[56] AN Tikhonov, VY Arsenin, “Solutions of Ill-Posed Problems,” Winston, Washington,
DC (1977).
[57] AN Tikhonov, AV Goncharsky(Eds), “Masalah yang Diberikan dalam Ilmu Pengetahuan Alam,”, MIR,
Moskow, 1987.
[58] AN Tikhonov, AV Goncharsky, VV Stepanov, AG Yagola, "Metode Numerik untuk
Solusi Masalah yang Diberikan," Kluwer, Dordrecht, Belanda, 1995.
[59] e (2006) 'Pendekatan gradien yang diproyeksikan ke solusi numerik dari
SCoTLASS', Statistik Komputasi dan Analisis Data 50 242-253.
[60] Witten, Tibshirani dan Hastie (2009) “Dekomposisi matriks yang dihukum, dengan aplikasi untuk
komponen utama yang jarang dan analisis korelasi kanonik”, Biostatistics (2009), 10, 3, hlm. 515–
534, 2009 .
[61] Z. Zhang, H. Zha, dan H. Simon, "Perkiraan peringkat rendah dengan faktor sparse I: algoritma
dasar dan analisis kesalahan," jurnal SIAM tentang analisis matriks dan aplikasinya,
23(3):706–727, 2002.
[62] H. Zou, T. Hastie, dan R. Tibshirani, "Analisis Komponen Utama Jarang," Jurnal
Statistik Komputasi & Grafis, 15 (2): 265-286, 2006.
2425