Ulasan Pengurangan Dimensi Klasik dan Sampel Metode Seleksi untuk Pengolahan Data
skala besar
Xinzheng Xu, Tianming Liang, Jiong Zhu, Dong Zheng, Tongfeng Sun
Silakan mengutip artikel ini sebagai: Xinzheng Xu, Tianming Liang, Jiong Zhu, Dong Zheng, Tongfeng Sun, Ulasan Pengurangan Dimensi
Klasik dan Sampel Metode Seleksi untuk skala besar Pengolahan Data, Neurocomputing ( 2018), doi: https://doi.org/10.1016/j.neucom.2018.02.100
Ini adalah PDF fi le dari sebuah naskah diedit yang telah diterima untuk publikasi. Sebagai layanan kepada pelanggan kami kami
menyediakan versi awal ini naskah. Naskah akan menjalani copyediting, typesetting, dan review bukti yang dihasilkan sebelum diterbitkan
dalam bentuk fi nal nya. Harap dicatat bahwa selama kesalahan proses produksi dapat ditemukan yang dapat mempengaruhi isi, dan
semua penolakan hukum yang berlaku untuk jurnal berhubungan.
DITERIMA NASKAH
Fakultas Ilmu Komputer dan Teknologi, Universitas Cina Pertambangan dan Teknologi, Xuzhou
221.116, Cina;
Abstrak: Di era big data, semua jenis data dengan meningkatnya sampel dan atribut dimensi tinggi yang menunjukkan peran penting mereka dalam berbagai
bidang, seperti pertambangan data, pengenalan pola dan pembelajaran mesin, dll Sementara itu, algoritma pembelajaran mesin sedang efektif diterapkan
dalam pengolahan data skala besar. Makalah ini terutama ulasan klasik pengurangan dimensi dan pemilihan sampel metode berdasarkan algoritma
pembelajaran mesin untuk pengolahan data skala besar. Pertama, kertas menyediakan gambaran singkat untuk pemilihan sampel dan pengurangan dimensi
metode klasik. Kemudian, membayar perhatian pada aplikasi dari metode tersebut dan kombinasi mereka dengan metode pembelajaran mesin klasik, seperti
clustering, hutan acak, himpunan fuzzy, dan algoritma heuristik, khususnya metode yang mendalam bersandar. Selanjutnya, kertas terutama
memperkenalkan kerangka kerja aplikasi yang menggabungkan pemilihan sampel dan pengurangan dimensi dalam konteks dua aspek: sekuensial dan
simultan, yang hampir semua mendapatkan hasil yang ideal dalam pengolahan data pelatihan skala besar kontras dengan model asli. Terakhir, kita lanjut
menyimpulkan bahwa metode pemilihan sampel dan dimensi pengurangan sangat penting dan efektif untuk pengolahan data skala besar modern. Dalam
pekerjaan di masa depan, algoritma pembelajaran mesin, terutama metode pembelajaran dalam, akan memainkan peran yang lebih penting dalam
pengolahan data skala besar. yang hampir semua mendapatkan hasil yang ideal dalam pengolahan data pelatihan skala besar kontras dengan model asli.
H
Terakhir, kita lanjut menyimpulkan bahwa metode pemilihan sampel dan dimensi pengurangan sangat penting dan efektif untuk pengolahan data skala besar
modern. Dalam pekerjaan di masa depan, algoritma pembelajaran mesin, terutama metode pembelajaran dalam, akan memainkan peran yang lebih penting
A
dalam pengolahan data skala besar. yang hampir semua mendapatkan hasil yang ideal dalam pengolahan data pelatihan skala besar kontras dengan model
SK
asli. Terakhir, kita lanjut menyimpulkan bahwa metode pemilihan sampel dan dimensi pengurangan sangat penting dan efektif untuk pengolahan data skala besar modern. Dalam pekerjaan di mas
Kata kunci: skala besar pengolahan data; Pemilihan sampel; pengurangan dimensi; pembelajaran mesin
metode
NA
1 pengantar
A
Data meningkat dalam skala dan menjadi lebih penting. data besar sekarang muncul di setiap industri dalam masyarakat modern. Dengan terus
M
mengembangkan Artificial Intelligence (AI), data besar telah menjadi sangat penting. Dari IBM Deep Blue untuk Google Alpha Go-rentang waktu hampir 20
tahun-AI telah berkembang dari jaringan saraf untuk algoritma pembelajaran yang mendalam. data besar dan perbaikan dalam daya komputasi telah
RI
mempromosikan pengembangan AI. Kemampuan komputasi dari komputer meningkat secara eksponensial, dan akumulasi data meledak secara bersamaan.
TE
Pembelajaran mesin dan algoritma pembelajaran terawasi harus bergantung pada sejumlah besar sampel pelatihan untuk memastikan kinerja yang kuat [1].
Namun, ada banyak data yang tidak relevan, berlebihan, tidak lengkap dan bising di set pelatihan sebagai jumlah data menjadi semakin lebih besar [2]. Di sisi
lain, data training berskala besar membawa masalah seperti membutuhkan lebih penyimpanan dan kompleksitas komputasi yang lebih besar, sehingga
DI
mempengaruhi kemampuan generalisasi dan mengurangi akurasi prediksi. Itulah kuantitas dan kualitas sampel mempengaruhi kinerja komputer dan
ketahanan dari model. Selain masalah yang terkait dengan sampel, topik aktif lain adalah dimensi [3]. Dengan perbaikan pada kapasitas penyimpanan dan
teknologi analisis, para peneliti telah mulai fokus pada sifat intrinsik dari sampel, yaitu, fitur yang berharga Itulah kuantitas dan kualitas sampel mempengaruhi
kinerja komputer dan ketahanan dari model. Selain masalah yang terkait dengan sampel, topik aktif lain adalah dimensi [3]. Dengan perbaikan pada kapasitas
penyimpanan dan teknologi analisis, para peneliti telah mulai fokus pada sifat intrinsik dari sampel, yaitu, fitur yang berharga Itulah kuantitas dan kualitas
sampel mempengaruhi kinerja komputer dan ketahanan dari model. Selain masalah yang terkait dengan sampel, topik aktif lain adalah dimensi [3]. Dengan
perbaikan pada kapasitas penyimpanan dan teknologi analisis, para peneliti telah mulai fokus pada sifat intrinsik dari sampel, yaitu, fitur yang berharga
DITERIMA NASKAH
atribut dari semua dimensi sampel. Peningkatan jumlah data gambar, seperti gambar wajah, gambar lingkungan dan citra
penginderaan jauh, telah disertai dengan meningkatkan fokus pada visi komputer. Selain itu, data dimensi tinggi, terutama data
gambar, memainkan peran yang semakin penting dalam mengatasi masalah kehidupan nyata [4]. Cara mengekstrak dan
memilih informasi yang paling informatif atau diskriminatif selalu merupakan langkah yang sangat penting dalam semua jenis
bidang komputasi. Terutama di mesin belajar, bahkan dengan model yang sangat kuat dan efektif, jika data miskin, model akan
Sudah terlalu banyak masalah yang disebutkan di atas, dua metode yang sering digunakan, pemilihan sampel dan
pengurangan dimensi, diusulkan dan terus ditingkatkan dalam beberapa tahun terakhir. Metode pemilihan sampel dapat
mengurangi biaya komputasi dan bahkan meningkatkan akurasi belajar dengan membuang berlebihan, tidak lengkap, berisik
data dan sampel negatif lainnya [6, 7]. Metode pemilihan sampel tradisional dapat dibagi menjadi dua kategori [6]. Salah satu
jenis adalah data kondensasi seperti Kental Tetangga aturan terdekat [8] dan Instance-Based Learning (IBL) [9], metode ini
bisa menghapus bagian dari sampel yang tidak relevan atau berlebihan tetapi perlu banyak perhitungan. Yang lainnya adalah
pembelajaran aktif yang memilih prat sampel berlabel perwakilan untuk belajar [10, 11]. pembelajaran aktif adalah metode
tanpa pengawasan, sehingga efek dari metode tidak dapat dijamin. Fitur bisa dilihat sebagai partisi yang mendalam dari
sampel, yang menunjukkan pentingnya dalam gambar klasifikasi dan prediksi. Analisis dan perhitungan kedua masalah sulit
untuk data dimensi tinggi, sehingga teknologi pengurangan dimensi muncul pada momen bersejarah. Dan itu sangat penting
dalam model data berskala besar seperti mesin belajar saat ini. Berbeda dari metode pemilihan sampel, metode
pengurangan dimensi fokus pada sifat intrinsik dari sampel. Efek dan perhitungan kecepatan bisa sangat ditingkatkan dengan
memilih atribut diskriminatif atau membuang sejumlah besar dimensi berlebihan. Namun, fitur ruang didapatkan pengurangan
dimensi berarti informasi yang tidak lengkap atau bahkan dilepaskan. Selain itu, ini adalah masalah yang menantang
H
terutama ketika data yang tinggi dalam dimensi. fitur yang tidak memadai akan meningkatkan risiko overfitting dan
A
mendapatkan model yang lebih rendah interpretability [12]. Oleh karena itu, pentingnya pemilihan sampel dan pengurangan
SK
dimensi adalah jelas. Dan hampir semua analisis data berskala besar, terutama belajar dalam, gunakan pengurangan
dimensi dan metode pemilihan sampel. metode pembelajaran mesin telah diterapkan di semua jenis masalah di dunia nyata
seperti pengenalan pola, data mining, analisis prediktif, dll metode pembelajaran mesin klasik, seperti clustering, hutan acak,
NA
himpunan fuzzy, algoritma heuristik, bersandar dalam dan sebagainya, menunjukkan efek yang sempurna sepanjang.
Aplikasi metode pembelajaran mesin yang efisien untuk pemilihan sampel atau pengurangan dimensi telah terbukti
memainkan peran yang semakin penting dalam pengolahan data skala besar,
A
M
RI
TE
Sudah ada beberapa karya yang sama diterbitkan sebelum dan baru-baru ini [13, 14, 15, 16], namun karya-karya baik
fokus pada teori-teori utama dan model sampel seleksi atau pengurangan dimensi, atau fokus pada meninjau masalah
DI
tertentu seperti proyeksi acak berdasarkan pengurangan dimensi di [15] .suatu kontribusi makalah ini adalah untuk
mengambil gambaran singkat dari perkembangan pemilihan sampel dan teknik pengurangan dimensi, dan fokus pada
aplikasi teknik-teknik yang sangat berguna dengan metode pembelajaran mesin. berbagai metode pembelajaran mesin
yang digunakan untuk pemilihan sampel dan pengurangan dimensi dirangkum di koran. Dan kami terutama
memperkenalkan penggunaan kombinasi pemilihan sampel dan pengurangan dimensi. Untuk yang terbaik dari
pengetahuan kita, jenis pekerjaan ini berbeda dari karya yang diterbitkan,
Makalah ini akan menyediakan peneliti dengan pandangan yang jelas dari dua pilihan teori-sampel yang penting
DITERIMA NASKAH
dan dimensi pengolahan data pengurangan-in. Dan penekanan dari makalah ini adalah untuk meninjau semua jenis
aplikasi dengan pemilihan sampel dan pengurangan dimensi metode dalam tugas-tugas pembelajaran mesin yang
lebih mungkin. Makalah ini disusun sebagai berikut. Bagian 2 memperkenalkan pemilihan sampel dan aplikasi di
semua jenis masalah pembelajaran mesin. Pada bagian 3, teknik pengurangan dimensi dibagi menjadi ekstraksi fitur
dan seleksi fitur, dan aplikasi dalam metode pembelajaran mesin selanjutnya diringkas. Secara khusus, Konvolusional
Neural Network (CNN) Model ditekankan sebagai kombinasi dari ekstraksi fitur dan seleksi fitur. aplikasi yang
komprehensif dari pemilihan sampel dan pengurangan dimensi yang dibahas dalam bagian 4. Akhirnya,
model pemilihan sampel dalam analisis statistik tradisional, seperti random sampling, mudah dipahami dan paling umum digunakan, dan mereka
jauh berbeda dari bidang mesin belajar di tujuan. Dalam analisis statistik, peneliti ingin menggunakan bagian-bagian dari sampel untuk mewakili distribusi
probabilitas secara keseluruhan, dan tujuannya adalah untuk mendapatkan lingkup evaluasi perkiraan. Namun, tujuan dari pemilihan sampel dalam
pembelajaran mesin terutama untuk menghapus sampel berlebihan dan berisik. Dalam pembelajaran mesin, pembelajaran terutama dalam, tampaknya
lebih banyak sampel yang lebih baik untuk model. sampel berkualitas tinggi tambahan dapat meningkatkan kemampuan generalisasi dan menghasilkan
akurasi yang lebih baik. Beberapa penelitian dihadapkan dengan beberapa sampel [17] karena jumlah data akumulasi masih kecil atau jumlah kasus lebih
sedikit dari jumlah dimensi [18, 19]. Namun, sebagian besar penelitian dalam pembelajaran mesin menggunakan data besar untuk belajar dan
menganalisis informasi seperti fitur sebanyak mungkin. Para ahli ingin model untuk memberikan jawaban hanya relatif seperti 'ya' atau 'tidak'. Namun,
menganalisis masukan skala besar sampel adalah memakan waktu dan dapat menyebabkan overfitting dari model pelatihan [20]. metode pemilihan
sampel atau seleksi bagian informatif [21] yang penting untuk alasan ini. Skalabilitas merupakan masalah yang harus diperhatikan [7], terutama ketika
H
jumlah yang sangat besar dianggap. pilihan acak digunakan lebih sedikit sekarang dalam pembelajaran mesin, biasanya bertindak sebagai langkah
A
sedikit sebelum proses berikut pengolahan data, atau sebagai pilihan arah acak untuk beberapa algoritma optimasi di mesin belajar [22, 23]. Dalam
SK
beberapa pengolahan masukan skala besar untuk data tunggal seperti urutan video dan gambar itt, pilihan acak dapat digunakan dalam beberapa seleksi
tingkat pixel seperti [24, 25]. Pada bagian ini, aplikasi pemilihan sampel diperkenalkan dalam tiga aspek: diawasi, tanpa pengawasan dan sampel bias
seleksi. Klasifikasi perkiraan metode pemilihan sampel tersebut di mesin belajar ditunjukkan pada tanpa pengawasan dan pemilihan sampel Bias.
NA
Klasifikasi perkiraan metode pemilihan sampel tersebut di mesin belajar ditunjukkan pada tanpa pengawasan dan pemilihan sampel Bias. Klasifikasi
perkiraan metode pemilihan sampel tersebut di mesin belajar ditunjukkan pada Gambar. 1.
A
M
RI
TE
DI
[26], klasifikasi teks [27], klasifikasi citra satelit [28], klasifikasi RNA [29], dll Li [30] et al. mengusulkan metode pemilihan sampel
novel dalam adaptasi domain visual yang menggunakan jarang coding (SSSC). Algoritma yang pertama memetakan sumber dan
target domain ke dalam ruang bagian umum untuk menghindari masalah yang terkait dengan domain persimpangan. Kemudian,
sumber domain diperlakukan sebagai kamus, dengan yang target domain dapat direpresentasikan melalui kombinasi linear
menggunakan coding jarang. Sampel yang paling relevan dibuang melalui L 2, 1 norma regularisasi. Selain itu, algoritma juga
melatih classifier menggunakan bagian tertentu dari domain target tersebut bahwa model secara bersamaan dapat pilih sampel
dari beberapa domain. Hasil eksperimen menunjukkan efektivitas pada set data populer seperti MNIST, Caltech256 dan lain-lain.
Dalam klasifikasi teks, Liao [27] et al. mengusulkan metode pemilihan sampel baru untuk menghapus sampel berisik
menggunakan nilai keterwakilan yang menunjukkan pentingnya sampel. Hasil eksperimen menunjukkan efektivitas dan efisiensi
dari metode yang diterapkan ke mesin dukungan vektor (SVM) classifier. Untuk memilih sampel batas dan meningkatkan akurasi
klasifikasi untuk SVM, Xia [31] et al. disajikan mekanisme seleksi batas sampel baru bernama BSS-SVM. Niu [32] diterapkan
aliran pemilihan sampel yang sama untuk memprediksi lalu lintas jaringan, mengacu pada algoritma mereka sebagai
FCM-LSSVM. FCM bagian mengacu pada kabur-cara algoritma clustering digunakan untuk menghilangkan outlier dari sampel
asli. Sebuah SVM ditingkatkan digunakan untuk mengklasifikasikan dan memprediksi, dan algoritma buatan Bee Colony juga
digunakan untuk optimalisasi model. Sebagaimana dimaksud, kecepatan dan akurasi keduanya ditingkatkan. Zhai [33] et al.
terapan probabilistik jaringan saraf (PNNs) dan Zhai [33] et al. terapan probabilistik jaringan saraf (PNNs) dan Zhai [33] et al.
terapan probabilistik jaringan saraf (PNNs) dan KL divergence untuk memilih vektor dukungan untuk SVM untuk mengurangi baik
waktu dan kompleksitas ruang. Hao [34] et al. mengusulkan kerangka kerja yang efektif untuk pengenalan karakter tulisan
tangan. Langkah pertama adalah untuk menyingkat dan pilih sampel batas menggunakan tertimbang kental algoritma tetangga
terdekat ditingkatkan. Kemudian, Backpropagation (BP) jaringan saraf diadopsi untuk memprediksi secara efektif. model
meningkatkan kemampuan generalisasi dan mengurangi waktu pelatihan. Chellasamy [28] et al. disajikan pendekatan pemilihan
H
sampel pelatihan otomatis untuk klasifikasi tanaman citra satelit bernama berbasis Ensemble Cluster Penyempitan Approach
A
(ECRA). Kerangka ensemble cluster yang citra satelit dari tanaman atas dasar tekstur, spektral dan vegetasi indeks
SK
masing-masing. Kemudian, sampel perbatasan setiap cluster ditentukan. Dalam hal ini, tiga terpisah Multi-Layer Perceptron
(MLP) jaringan saraf yang digunakan untuk mengevaluasi sampel informatif dan memperbarui subset sampel. Akhirnya, Teori
Pengesahan (ET) digunakan untuk menyelesaikan klasifikasi. Akurasi klasifikasi ditingkatkan dengan hampir 10%, dan
NA
keuntungan yang paling penting adalah klasifikasi otomatis. Zhang [20] et al. digunakan entropi maksimum dan kontribusi sampel
untuk kelas berdasarkan aturan tetangga terdekat (KNN). algoritma baru ini mengurangi kebutuhan penyimpanan dan
mempercepat proses klasifikasi. Chen [35] et al. mengusulkan metode pemilihan sampel berdasarkan set kasar.
A
Santiago-Ramirez [316 et al. mengusulkan mekanisme optimal yang memilih subset terbaik dari sampel pelatihan untuk
M
pengenalan wajah. Garc [7] et al. disajikan metode baru, yang dapat diterapkan untuk setiap metode contoh seleksi tanpa
modifikasi apapun. Metode yang pertama membagi dataset asli menjadi beberapa himpunan bagian menguraikan. Berikutnya,
RI
beberapa pengklasifikasi lemah dipilih untuk membuat keputusan untuk setiap sampel. Mean dari hasil voting digunakan untuk
TE
Dalam banyak kasus, sebuah jumlah yang berlebih dapat mengakibatkan biaya komputasi yang tinggi menugaskan label; sebaliknya, ada
kadang-kadang bisa terlalu sedikit label diketahui [37]. Dengan demikian, algoritma untuk
DITERIMA NASKAH
sampel pelatihan berlabel adalah sama pentingnya. Berdasarkan strategi marjin sampling (MS), Guo [38] et al. memperkenalkan pendekatan belajar aktif
untuk memilih sejumlah kecil sampel pelatihan yang paling efektif dalam skala besar penginderaan jauh masalah klasifikasi citra. Dibandingkan dengan
sistem stratifikasi dan random sampling, efek klasifikasi yang lebih baik, dan ruang dan kompleksitas waktu dikurangi. Wang [6] et al. menyediakan
mekanisme yang memilih sampel yang representatif berdasarkan ambiguitas maksimum dalam pohon keputusan kabur pre-built. Algoritma memilih beberapa
sampel acak dari sampel set asli sebagai training set awal dan label mereka oleh para ahli. Kemudian, sampel yang tersisa dievaluasi menggunakan prinsip
ambiguitas klasifikasi maksimum di pohon keputusan kabur baru dibangun. sampel yang dipilih akhirnya diberi label melalui estimasi. Model ini dapat
mengurangi ruang penyimpanan secara efektif dan mendapatkan nomor yang dikehendaki dari sampel. Yuan [39] et al. dimanfaatkan fuzzy clustering untuk
memilih sampel pelatihan awal untuk belajar aktif. Sebuah pilihan model hybrid (HS) yang berisi seleksi berdasarkan batas (BS) dan seleksi berbasis pusat
(CS) untuk memilih perbatasan dan pusat sampel secara terpisah diusulkan. Kinerja metode untuk pembelajaran aktif baik. Dalam [40], sampler Gibbs yang
menyatu dengan lebih mudah Sebuah pilihan model hybrid (HS) yang berisi seleksi berdasarkan batas (BS) dan seleksi berbasis pusat (CS) untuk memilih
perbatasan dan pusat sampel secara terpisah diusulkan. Kinerja metode untuk pembelajaran aktif baik. Dalam [40], sampler Gibbs yang menyatu dengan
lebih mudah Sebuah pilihan model hybrid (HS) yang berisi seleksi berdasarkan batas (BS) dan seleksi berbasis pusat (CS) untuk memilih perbatasan dan
pusat sampel secara terpisah diusulkan. Kinerja metode untuk pembelajaran aktif baik. Dalam [40], sampler Gibbs yang menyatu dengan lebih mudah untuk
belajar struktural grafik asiklik diarahkan dibangun. Xu [11] et al. pertama ditafsirkan pembelajaran aktif dari sudut pandang murni aljabar pandang dan
dikombinasikan dengan semi-diawasi belajar manifold, di mana metode pemilihan sampel heuristik dipekerjakan untuk pelabelan. Menurut Gershgorin
lingkaran teorema, sebuah band atas dihitung untuk label sampel, dan kerangka kerja berkinerja baik di kedua regresi dan tugas klasifikasi. Yang [37] et al.
juga berfokus pada pemilihan sampel dalam pembelajaran aktif untuk masalah multi-kelas.
memperkenalkan masalah ini ke mesin belajar dan membuktikan bahwa itu benar dengan menganalisis rumus teoritis
A
beberapa metode pembelajaran mesin, seperti pengklasifikasi Bayesian, SVMs, dll Contoh bias seleksi dalam klasifikasi
SK
mesin belajar mengacu pada apakah sampel dipilih sesuai dengan sampel atau sesuai label atau keduanya. Selain itu,
Zadrozny disajikan peserta didik global, seperti lembut marjin SVM dan naif Bayes (NBC), dipengaruhi oleh bias seleksi
sampel, sedangkan peserta didik lokal, seperti hard marjin SVM dan regresi logistik, tidak. Kemudian, Wu [43] et al. lanjut
NA
mempelajari masalah bias seleksi sampel mengoreksi dalam klasifikasi citra. density estimasi kernel (KDE) digunakan untuk
memprediksi distribusi tes diatur sesuai dengan training set. Hasil klasifikasi menunjukkan efektivitas kerangka dengan
bias seleksi sampel juga disebut pergeseran kovariat [44], dan biasanya digunakan dalam data bahwa distribusi berbeda
RI
antara set pelatihan dan test set [45]. Terutama dalam konstruksi semi-diawasi data pelatihan, bagaimana untuk memilih sampel
TE
berlabel sesuai dengan beberapa sampel berlabel adalah kunci untuk membuat classifier yang lebih baik. Sebagai contoh, dalam
publikasi medis, ketidakseimbangan data membuat teks biomedis klasifikasi tantangan besar untuk mesin belajar. Ketika melatih
classifier SVM, ketidakseimbangan nomor pada setiap kelas akan mengurangi akurasi tes. Romero [46] et al. mencoba untuk
DI
membangun sebuah teks biomedis training set yang seimbang melalui tiga sampel teknik bias seleksi: undersampling, resampling
dan subsampling strategi. Oversampling dan subsampling bisa merekonstruksi jumlah dan distribusi kelas minoritas dan kelas
mayoritas, masing-masing. Dan penulis menemukan bahwa subsampling dengan polinomial SVM bisa mendapatkan performa
klasifikasi yang lebih baik pada teks biomedis seimbang. Krautenbacher [47] et al. juga digunakan sampel bias seleksi untuk
3 pengurangan dimensi
DITERIMA NASKAH
Dengan dataset menjadi semakin besar, dimensi dari data tunggal juga meningkat; masalah ini kadang-kadang disebut dimensi sebagai ultrahigh [48].
teknik pengurangan dimensi memetakan data dimensi tinggi ke ruang yang lebih rendah dimensi [49]; teknik tersebut digunakan secara luas dalam
pembelajaran mesin, terutama dalam belajar dalam, sebagai metode pra-pengolahan data yang diperlukan. Tujuan utama dari pengurangan dimensi adalah
untuk menemukan ruang bagian yang paling berguna dan informatif yang tidak hanya mengurangi kompleksitas komputasi, tetapi juga, yang paling penting,
menyesuaikan model semaksimal [50]. Dalam beberapa keadaan, jumlah dimensi sampel jauh lebih dari jumlah sampel [51]. Sebagai contoh, banyak peneliti
telah menemukan bahwa sejumlah fitur seringkali lebih besar dari jumlah sampel dalam aplikasi bioinformatika [52]. Dengan demikian, untuk menghindari
bencana dimensi dan overfitting, pengurangan dimensi diperlukan. Ada dua aspek utama dalam pengurangan dimensi: ekstraksi fitur dan fitur pemilihan [53].
seleksi fitur mengacu memilih sebagian dari dimensi asli yang paling penting untuk tugas itu, sedangkan ekstraksi fitur mengacu penggalian set representasi
baru dan lebih kecil dari ruang dimensi asli [54]. Kadang-kadang, ekstraksi fitur sulit untuk menjelaskan dan sulit untuk mengadopsi dalam beberapa aplikasi
kritis [55]. Biasanya, metode seleksi fitur lebih mudah dan digunakan lebih luas daripada ekstraksi fitur [55]. Dalam seleksi fitur, beberapa dikurangi dimensi
yang paling relevan untuk model target yang dipilih dari ruang input asli. ekstraksi fitur mengubah ruang asli untuk subruang rendah-dimensi. Struktur dapat
diubah relatif terhadap struktur asli oleh (non-) menggabungkan linear fitur yang ada [56]. Dengan demikian, seleksi fitur lebih berguna dalam klasifikasi teks
dan seleksi gen, dan ekstraksi fitur umumnya diterapkan dalam klasifikasi citra dan pengenalan pola. teknik pengurangan dimensi dapat dibagi lagi sesuai
dengan aspek-aspek berikut: linear atau nonlinear, diawasi atau tanpa pengawasan, lokal atau global [57]. Metode tersebut secara luas diterapkan dalam
klasifikasi, clustering, regresi, prediksi, dan sebagainya. Jenis dan penerapan bidang pengurangan dimensi diilustrasikan dalam ekstraksi fitur mengubah
ruang asli untuk subruang rendah-dimensi. Struktur dapat diubah relatif terhadap struktur asli oleh (non-) menggabungkan linear fitur yang ada [56]. Dengan
demikian, seleksi fitur lebih berguna dalam klasifikasi teks dan seleksi gen, dan ekstraksi fitur umumnya diterapkan dalam klasifikasi citra dan pengenalan
pola. teknik pengurangan dimensi dapat dibagi lagi sesuai dengan aspek-aspek berikut: linear atau nonlinear, diawasi atau tanpa pengawasan, lokal atau
global [57]. Metode tersebut secara luas diterapkan dalam klasifikasi, clustering, regresi, prediksi, dan sebagainya. Jenis dan penerapan bidang pengurangan
dimensi diilustrasikan dalam ekstraksi fitur mengubah ruang asli untuk subruang rendah-dimensi. Struktur dapat diubah relatif terhadap struktur asli oleh
H
(non-) menggabungkan linear fitur yang ada [56]. Dengan demikian, seleksi fitur lebih berguna dalam klasifikasi teks dan seleksi gen, dan ekstraksi fitur
umumnya diterapkan dalam klasifikasi citra dan pengenalan pola. teknik pengurangan dimensi dapat dibagi lagi sesuai dengan aspek-aspek berikut: linear
A
atau nonlinear, diawasi atau tanpa pengawasan, lokal atau global [57]. Metode tersebut secara luas diterapkan dalam klasifikasi, clustering, regresi, prediksi,
SK
dan sebagainya. Jenis dan penerapan bidang pengurangan dimensi diilustrasikan dalam Struktur dapat diubah relatif terhadap struktur asli oleh (non-) menggabungkan linear fitur yang ada [56]. D
NA
A
M
RI
TE
DI
Pada bagian ini, pertama kita singkat memperkenalkan teori dasar pengurangan dimensi. Selanjutnya, ringkasan
yang lebih rinci dari ekstraksi fitur dan seleksi fitur, dua aspek utama dari pengurangan dimensi, dan aplikasi yang luas
mereka diberikan.
analisis diskriminan (LDA) [61]. PCA merupakan salah satu metode pengurangan dimensi linier paling klasik. Ide utama adalah
untuk menemukan ruang bagian optimal yang mewakili distribusi data, yaitu, matriks pemetaan yang terdiri dari yang pertama n vektor
fitur yang sesuai dengan nilai-nilai fitur terbesar dari matriks kovarians. Ada juga banyak teknik nonlinear, seperti Kernel PCA
[62], Multidimensional Scaling (MDS) [63] dan isometrik Fitur Pemetaan (Isomap) [64], yang tampil baik pada data nonlinier yang
kompleks [65]. Banyak penelitian dilakukan untuk mengeksplorasi metode ekstraksi fitur sederhana dan efisien dalam
Untuk pembangunan kerangka kerja atau kerangka lengkap, desain metode ekstraksi fitur yang lebih penting daripada melatih
classifier kompleks [68]. Di sini, kita akan memperkenalkan model ekstraksi fitur yang sangat sukses digunakan dalam pengolahan citra.
Dalam pembelajaran berkembang dengan cepat, dan mendapat begitu banyak negara-of-art efek hari ini. CNN [69] adalah jenis
jaringan saraf dalam umpan-maju dengan struktur convolutional yang melakukan dengan sangat baik. Hal ini terdiri dari dua bagian:
fitur extractor otomatis dan classifier dilatih. Struktur CNN primitif, seperti yang digunakan di Lenet-5, ditunjukkan pada Gambar. 3.
A H
SK
Model input gambar langsung, fitur global dan lokal yang diekstrak melalui lapisan konvolusi linear. Setelah lapisan lilit,
NA
berikut ini biasanya adalah non-linear lapisan polling. Lapisan polling bisa mengurangi resolusi fitur diekstrak, dan ada dua
metode lapisan polling yang biasanya digunakan dalam jaringan. Untuk rata-rata polling, dapat dilihat sebagai suatu proses
ekstraksi fitur lebih lanjut untuk mengurangi perhitungan. Untuk cara max polling, hal itu dapat dilihat sebagai pilihan fitur untuk
A
mendapatkan titik paling penting dari fitur lokal. Proses pelatihan yang lengkap dapat diamati sebagai kombinasi indah ekstraksi
M
Hal ini dapat memperoleh hasil yang sangat baik karena model menganggap karakteristik intrinsik dari gambar. Dalam referensi
[70], penulis mengusulkan sebuah novel CNN-SVM kerangka di mana model CNN digunakan untuk mengekstrak dan memilih fitur
diskriminatif, dan SVM digunakan sebagai classifier super. Model fusi memperoleh tingkat pengakuan yang sangat tinggi pada MNIST
mempertahankan konstruk asli dan informasi [18]. Ini adalah masalah optimasi yang terintegrasi dengan biaya komputasi yang tinggi.
fitur lokal yang mewakili ruang sampel daripada fitur global yang [51]. metode seleksi fitur tradisional biasanya menghitung
skor setiap fitur dalam satu area secara independen, dan kemudian, atas n fitur yang dipilih sesuai dengan skor. Jenis skor
digunakan untuk mengevaluasi kemampuan cluster yang berbeda membedakan untuk fitur tertentu. Jelas, metode
melakukan dengan baik pada klasifikasi biner tetapi tidak baik untuk masalah multi-klasifikasi. Untuk data yang besar dan
dimensi tinggi, metode seleksi fitur menghadapi tantangan berikut: efisiensi, universalitas, implementasi kemudahan, dan nonlinier
[71]. Di sisi lain, banyak meningkatkan data yang berlabel dengan kebutuhan berdimensi tinggi untuk diproses dalam
pembelajaran mesin, yang membuat seleksi fitur tanpa pengawasan masalah yang semakin menantang dan penting [72].
Menurut model pencarian seleksi fitur, metode seleksi fitur termasuk pembungkus, filter dan hibrida (ensemble) [73, 74].
metode wrapper adalah sistem kotak hitam yang menggunakan informasi prediksi saat ini. metode wrapper tampil baik di
menemukan subset fitur yang optimal untuk mendapatkan hasil yang lebih baik daripada metode saringan [75]. Namun, metode
wrapper mengevaluasi subset optimal saat heuristik. Ketika jumlah dimensi tinggi, waktu komputasi dan kompleksitas juga tinggi.
Misalnya, clustering adalah metode wakil dari metode wrapper. Namun, ia memiliki biaya komputasi yang tinggi. Metode wrapper
juga termasuk algoritma seleksi sekuensial dan algoritma pencarian heuristik [76]. Pendekatan heuristik banyak digunakan adalah
algoritma terutama evolusi, termasuk Particle Swarm Optimization (PSO), Ant Colony Optimization (ACO), Algoritma Genetika (GAs)
dan lain-lain [77]. Penelitian terbaru telah menggunakan tertimbang A * untuk optimalisasi seleksi fitur tanpa pengawasan [78, 79].
Berbeda dengan metode wrapper, metode filter yang menggunakan beberapa langkah-langkah tidak langsung lainnya. Contoh
termasuk metode peringkat dan metode pencarian ruang [73]. jenis metode menggunakan karakteristik umum, seperti jarak, yang
terutama digunakan untuk memilih sebagian besar dari subset fitur, kadang-kadang bahkan semua fitur. Filter metode yang umum
dan mudah untuk memperpanjang; contoh termasuk Maximum Variance, Score Laplacian, dan Fisher Score [80]. metode Hybrid
H
mengacu pada kombinasi optimal dari filter dan wrapper metode. Metode Hybrid menggabungkan kelebihan dari filter dan wrapper
A
metode dan telah menerima banyak perhatian sebagai metode seleksi fitur baru. Dalam metode hibrida, juga disebut metode
SK
sebagai ensemble, metode filter dapat dianggap sebagai langkah pre-processing; selanjutnya, metode wrapper diterapkan untuk
menyelesaikan tugas [76]. Berdasarkan pembahasan di atas, metode khusus ekstraksi fitur dan seleksi fitur dapat secara luas
Gambar 5.:
M
RI
TE
DI
ekstraksi. Semua jenis metode pengurangan dimensi tradisional dan ditingkatkan dikombinasikan dengan metode pembelajaran mesin
Loderer [81] et al. mengusulkan strategi pelatihan yang menggabungkan PCA, Pola lokal Binary (LBP) dan algoritma
pengelompokan seperti k-sarana untuk memilih fitur terlihat secara otomatis untuk Face Recognition. Hasil klasifikasi untuk
classifier SVM mengungkapkan keseimbangan antara penyimpanan dan akurasi. Dalam klasifikasi citra, Pighetti [82] et al.
menganggap bahwa SVM sangat efektif dan digunakan secara luas, sehingga kerangka kerja baru yang memilih sampel
yang efektif paling sedikit untuk SVM dalam klasifikasi halus disajikan. Algoritma Genetik Multi-Objective (MOGA)
digunakan untuk memilih dan mengoptimalkan sampel efektif untuk SVM, di mana Lokalitas Sensitive Hashing (LSH)
digunakan untuk memperbaiki parameter dalam prosesi MOGA. Percobaan menunjukkan bahwa metode mencapai
- norma (0 < ≤ 1) untuk seleksi fitur. Kinerja pada SVM classifier linear untuk klasifikasi multi-kelas ditingkatkan. Untuk
mengembangkan algoritma penurut dan mengeksploitasi kriteria teoritis seleksi fitur, metode baru yang menggabungkan
informasi timbal balik dan label kelas diusulkan dalam [83]. Dengan mengontrol kriteria metode seleksi fitur penurut,
kompleksitas komputasi dapat dikurangi hingga dua lipat. Selanjutnya, kedua akurasi klasifikasi dan kecepatan yang unggul
daripada negara-of-art baseline. Omara [84] et al. disajikan metode ekstraksi fitur geometris khusus untuk pengakuan telinga.
Chen [85] et al. Dianggap clustering dan kelompok-sparsity regularisasi untuk seleksi fitur dan kemudian mengusulkan
multi-task fitur bersama kerangka seleksi berbasis pengelompokan untuk prediksi atribut semantik dalam pembelajaran
multi-task. Chen [55] et al. seleksi terpadu fitur dan pemodelan, membuang fitur acuh tak acuh dan buruk, dengan konstruksi
simultan aturan kabur. Oleh karena itu, model bukanlah sistem yang terpisah dan dapat memperoleh satu set kecil fitur.
Sebuah metode ekstraksi fitur baru, Orthogonal Least Squares Regression (OLSR), disajikan dalam [86]. model konstruksi
H
LSR berdasarkan kendala orthogonal sehingga informasi diskriminatif dapat diperoleh. Akurasi pengenalan untuk UCI, wajah
A
dan data tapak menunjukkan bahwa fitur diekstrak dari model yang representatif. visi komputer saat ini bidang penelitian yang
SK
sangat aktif. Gao [87] et al. disajikan metode baru skala besar ekstraksi data gambar, Centered Konvolusional Dibatasi
Boltzmann Mesin (CCRBM), untuk pengakuan adegan. model menambahkan faktor-faktor yang berpusat untuk meningkatkan
Konvolusional Dibatasi Boltzmann Mesin (CRBM) sehingga stabilitas model yang ditingkatkan. Unit terlihat dan hidden unit
NA
saling mempengaruhi dan mengoptimalkan terus menerus. Menggunakan metode pelatihan lapisan-bijaksana serakah,
kemampuan generatif model membaik. Percobaan yang luas pada data citra skala besar menunjukkan efektivitas metode ini
di scene recognition. Dalam RNN, negara-negara bagian dalam transformasi sangat kompleks. Løkse [88] et al. menerapkan
A
teknik pengurangan dimensi di setiap jaringan negara untuk mendapatkan kinerja yang lebih baik. Sebelum nilai keadaan
M
batin ditransmisikan ke lapisan berikutnya, regularisasi kendala PCA dan kPCA disesuaikan pada negara-negara ini dalam.
Model ditingkatkan telah meningkatkan kemampuan generalisasi dan memperoleh kinerja yang lebih baik dalam eksperimen.
RI
Li [57] et al. dianggap sebagai aplikasi yang luas dari LDA dalam pengurangan dimensi dan kekurangan, seperti aplikasi yang
TE
dibatasi untuk distribusi Gaussian dan sejumlah fitur diekstrak menjadi beberapa. The nonparametrik Margin proyeksi
(MNMP) Model maksimum untuk ekstraksi fitur diusulkan. Selain itu, dalam kelas dan antara kelas beraikan digunakan untuk
mendapatkan ruang bagian diskriminatif. Percobaan menunjukkan efisiensi metode. Dalam pembelajaran multi-label, data
DI
sering memiliki fitur berlebihan dan berisik dari dimensi tinggi karena ada lebih dari satu label yang terkait dengan satu contoh
[89]. Jian [90] et al. disajikan kerangka seleksi fitur multi-label informasi untuk meningkatkan efektivitas dan efisiensi
DITERIMA NASKAH
klasifikasi. The dimensi tinggi multi-berlabel ruang fitur diurai menjadi ruang rendah-dimensi sesuai dengan ide Latent Semantic
Indexing. Kemudian, fitur lebih lanjut seleksi disesuaikan, dan aturan Armijo digunakan untuk optimasi. seleksi fitur memilih
beberapa fitur atas membentuk data pemetaan dari ruang dimensi tinggi asli, dalam rangka untuk menghapus fitur bising sebagai
lebih mungkin, Xu [91] ditingkatkan LDA untuk mengoptimalkan kerangka ekstraksi fitur multi-label. Kerangka baru didorong dari
dua metode LDA multi-label ada. Fitur didapatkan LDA akan lebih ditimbang dengan mempertimbangkan baik fitur dan label
informasi. Selain itu, bobot mendapat melalui memaksimalkan kriteria kemerdekaan Hilbert-Schmidt membuat ekstraksi fitur
multi-label yang lebih memadai dan efektif. Angelo [92] et al. dibuktikan bahwa metode ekstraksi fitur yang efektif diterapkan
dalam metode soft computing adalah kunci untuk cacat struktur aerospace dalam percobaan. Tao [17] et al. memanfaatkan PSO
untuk mengoptimalkan parameter dalam tahap ekstraksi fitur pada set sampel kecil. Berikutnya, sesuai dengan tingkat keputusan,
metode ekstraksi fitur yang berbeda yang dibangun untuk meningkatkan akurasi klasifikasi. Dalam [93], para peneliti
membuktikan bahwa metode tradisional yang meningkatkan diskriminasi antar-kelas secara maksimal dalam pengurangan
dimensi akan menghasilkan overfitting, terutama untuk data dimensi tinggi. Akibatnya, metode baru yang memecahkan masalah
overfitting, bernama lembut diskriminan Peta (SDM), diusulkan. Perbandingan eksperimental dengan PCA dan LDA menunjukkan
bahwa metode ini menghasilkan kinerja yang unggul. Wei [94] et al. disebutkan bahwa daerah V4 visual dalam mekanisme saraf
yang bertanggung jawab untuk bentuk pengakuan untuk penglihatan. Oleh karena itu, mereka membangun sebuah jaringan saraf
V4 untuk tugas-tugas visi berdasarkan ekstraksi fitur bentuk. Lapisan tingkat rendah memperoleh orientasi dan fitur tepi.
Kemudian, fitur sekitar poin penting dikodekan ke dalam lapisan RBM untuk menghasilkan representasi dari bentuk. Bentuk
representasi ini dan distribusi yang sesuai mereka akhirnya digunakan untuk pengenalan obyek. Di bidang kedokteran klinis, ada
banyak penelitian tentang pengurangan dimensi [18, 54]. Mi [76] et al. mengusulkan algoritma wrapper yang kuat untuk prediksi
hasil pengobatan tumor menggunakan dataset kecil dan memperoleh akurasi yang menjanjikan. Penelitian yang dipresentasikan
di [54] menunjukkan bahwa ketika jumlah sampel cukup besar, metode ekstraksi fitur berperforma lebih baik dibandingkan
H
metode seleksi fitur. Fitur metode seleksi tertanam adalah pilihan yang baik untuk set data kecil. Dalam masalah pengenalan
A
wajah menantang, Wang [19] et al. disajikan sebuah metode pembelajaran ensemble dengan random sampling vektor fitur ruang
SK
bagian dan parameter optimal untuk mendapatkan akurasi yang lebih tinggi. Dimensi tinggi dari sampel pertama dikurangi melalui
PCA. Kemudian, subruang vektor fitur diperoleh dengan menggunakan metode LDA. Melalui algoritma kombinasi dan beberapa
pengklasifikasi LDA, ketepatan pengakuan akan lebih baik. Thanh [95] et al. mengusulkan coding jarang online yang dinamis fitur
NA
mekanisme seleksi untuk bidang robotika berdasarkan penguatan belajar di ruang dimensi tinggi lingkungan nyata-dunia. Dalam
antarmuka otak-komputer (BCI) lapangan, Luo [96] et al. disajikan pendekatan seleksi fitur bernama dinamis seleksi fitur frekuensi
(DFFS) untuk memilih fitur yang paling berguna. Hutan acak (RF) algoritma kemudian digunakan untuk klasifikasi. Dalam [97],
A
ekstraksi fitur berdasarkan blok proyeksi diterapkan pada multi-unit rekaman, yaitu lonjakan menyortir, untuk mengekstrak
M
Sampai saat ini, makalah ini telah mengkaji teori pemilihan sampel dan pengurangan dimensi secara detail, masing-masing. Kami
juga telah memperkenalkan sejumlah besar metode ini dikombinasikan dengan mesin belajar secara terpisah. Untuk semua jenis
pertanyaan khusus, seperti klasifikasi dan prediksi, baik pemilihan sampel atau pengurangan fitur saja yang digunakan dalam kebanyakan
peneliti telah dikombinasikan pemilihan sampel dengan pengurangan dimensi untuk mendapatkan solusi optimal yang lebih baik. Pada
bagian ini, kami mengumpulkan berbagai metode dan aplikasi yang sekering pemilihan sampel dan pengurangan dimensi baik sopan santun
seleksi berdasarkan [27]. sampel suara yang dipilih sesuai dengan nilai keterwakilan. Kemudian, fitur metode penyesuaian berat
yang digunakan sesuai dengan distribusi sampel untuk lebih memilih fitur diskriminatif untuk classifier. Hasil eksperimen pada SVM
menunjukkan bahwa model ini dapat membuang banyak sampel yang tidak relevan secara efektif dan mendapatkan kinerja
klasifikasi yang lebih baik. Thung [99] et al. seleksi dipekerjakan fitur dan sampel seleksi berurutan pada multi-modalitas data yang
tidak lengkap [100] oleh data yang mengelompokkan dan pembelajaran multi-task. Pertama, matriks data tidak lengkap
dikelompokkan ke dalam beberapa submatriks tumpang tindih. Kemudian, proses seleksi fitur ini dilakukan dengan menggunakan
regresi jarang multi-task untuk menghapus fitur berlebihan dan berisik. Berikutnya, kerangka memilih sampel yang representatif
menggunakan algoritma pembelajaran multi-task. Kerangka kerja ini menunjukkan perbaikan baik dari segi akurasi dan kecepatan
klasifikasi. Xia [101] et al. dianggap dua masalah utama dalam domain adaptasi, pelabelan dan contoh adaptasi, untuk menyajikan
suatu kerangka komprehensif bernama fitur ensemble ditambah pemilihan sampel (SS-FE). model melatih Naïve Bayes (NB)
classifier pertama dengan ekstraksi fitur, dan kemudian metode pemilihan sampel berdasarkan PCA (PCA-SS) diadopsi. Efek dari
ekstraksi fitur dan PCA-SS keduanya baik, tapi SS-FE menunjukkan kinerja yang lebih baik dalam perbandingan eksperimental.
Xuan [29] et al. disajikan metode pemilihan sampel yang efektif pada pra-miRNA (miSampleSelect), yang didasarkan pada dua
tahap clustering dan seleksi fitur. Training set pertama berkerumun menurut kesamaan batang pra-miRNAs. Kemudian, 27 fitur
diskriminatif dipilih dari seluruh ensemble dari 48 fitur untuk setiap sampel. Langkah ketiga mengimplementasikan algoritma
pengelompokan lain, yang didasarkan pada distribusi sampel, dan sampel yang paling efektif yang dipilih sesuai kepadatan. Metode
H
miSampleSelect dapat mengatasi masalah yang disebabkan oleh ketidakseimbangan sampel pelatihan oleh classifier SVM. Neagoe
A
[102] et al. diterapkan ACO untuk pengakuan citra ruang. Seleksi Band ACO (ACO-BS) pertama kali digunakan untuk mengurangi
SK
dimensi dengan menciptakan band-band dari gambar multispektral. Kemudian, ACO Pelatihan Label Pemurnian (ACO-TLP)
digunakan untuk memilih pelatihan sampel bagian yang paling informatif. Model dapat mengurangi sebanyak sampel dan efektif
dalam percobaan. Selain aplikasi, ada juga analisis teoritis pemilihan sampel dan pengurangan dimensi. Untuk mendapatkan batas
NA
atas jumlah sampel untuk belajar PCA, Hanneke [103] memecahkan lama masalah terbuka dengan sepenuhnya menghilangkan
faktor logaritmik berdasarkan pada karya Hans Simon. Semua metode fusi yang disebutkan di atas adalah kombinasi berurutan
pengurangan dimensi dan pemilihan sampel. Kerangka kerja yang disebutkan di atas diilustrasikan dalam Gambar. 6 dan Gambar.
A
7.
M
RI
TE
DI
Gambar. 6 dan Gambar. 7 menunjukkan dua urutan yang berbeda dari penggunaan pengurangan dimensi dan pemilihan sampel.
Mereka juga mewakili dua jenis pengolahan jalan bagi data asli. Untuk cara pertama, model pertama menganggap distribusi data, kemudian
mengambil metode yang tepat untuk mendapatkan fitur untuk tugas berikut. Untuk Gambar. 7, model biasanya ekstrak fitur semua sampel,
maka fitur setiap sampel akan menggantikan sampel asli ke langkah pemilihan sampel berikutnya. Untuk data yang berbeda dan tugas yang
berbeda, peneliti akan memilih cara cocok seperti yang ditunjukkan sebelumnya.
pengurangan dimensi mungkin bukan hasil optimal karena tumpang tindih dari dua sub-masalah [104, 1]. Sebuah kerangka kerja
baru yang menggabungkan pemilihan sampel dan pengurangan dimensi secara bersamaan ditunjukkan pada Gambar 8.:
A H
SK
NA
Ng [1] et al. berpikir bahwa aspek yang paling penting dari pengembangan kombinasi pemilihan sampel dan pemilihan fitur adalah
A
untuk menemukan ukuran yang sama untuk mengevaluasi pentingnya setiap sehingga tidak akan ada tumpang tindih. Mereka
M
Neural Networks-sensitivitas ukuran), yang dapat digunakan untuk memilih sampel hanya berguna atau melakukan
TE
Pemilihan sampel dan seleksi fitur bersama-sama (RBFMV-SM-SS). Sensitivitas ukuran (SM) digunakan secara luas dalam
jaringan saraf karena dapat mengevaluasi fitur dan sampel dengan cara yang sama. Di sisi lain, RBF mudah untuk memahami dan
menggunakan. Dengan demikian, arsitektur ensemble memiliki keuntungan jelas. Selain itu, hasil eksperimen menunjukkan bahwa
DI
model dapat memilih beberapa fitur dan sampel untuk mendapatkan akurasi yang tinggi. Mohsenzadeh [105] et al. disajikan
struktur sendi disebut relevansi mesin fitur sampel (RSFM) untuk memilih sampel relevansi dan fitur secara bersamaan. Model ini
merupakan perluasan dari dasar mesin vektor relevansi (RVM), yang dapat menghasilkan himpunan jarang dari sampel pelatihan
asli, yaitu sampel relevansi. RSFM dapat memperoleh akurasi klasifikasi yang lebih tinggi daripada RVM klasik karena dapat
memperoleh vektor fitur relevansi jarang dan sampel relevansi secara bersamaan. Peningkatan sparsity dapat menurunkan
kompleksitas dan menghindari overfitting dari model sehingga model tersebut lebih efisien. Peningkatan algoritma memiliki lebih
baik
DITERIMA NASKAH
kemampuan generalisasi dan menghilangkan fitur berisik dan tidak relevan secara efektif, tetapi memiliki kelemahan bahwa model hanya dapat memperoleh
konvergensi lokal. Oleh karena itu, Adeli [104] et al. mengusulkan struktur pemilihan fitur-sampel gabungan (JFSS) yang menggunakan model regresi linear
jarang untuk menghapus sampel berlebihan dan fitur yang tidak relevan secara bersamaan. JFSS mengadopsi masalah optimasi tunggal bukan kemungkinan
maksimalisasi marjinal untuk mengubah masalah masalah optimasi cembung sederhana. Dengan demikian, formulasi lebih mudah untuk memecahkan
daripada RSFM. Selain itu, mengingat bahwa masih ada beberapa kebisingan acak setelah memilih fitur terbaik dan sampel, seluruh model memiliki proses
de-noising. Model ini diterapkan untuk diagnosis PD, dan hasilnya menunjukkan kehandalan dan akurasi yang baik. Berdasarkan kerugian dari RSFM,
Mohsenzadeh et al. juga mengusulkan model perbaikan yang disebut Incremental Relevansi Contoh-Fitur Machine (IRSFM) [75]. Varian baru mengubah
marjinal kemungkinan pendekatan maksimisasi yang mengoptimalkan pembangunan diinisialisasi model, menambahkan fungsi kernel langkah demi langkah
dan hanya menghitung parameter yang relevan dengan fitur saat ini dan sampel. Akibatnya, IRSFM dapat diterapkan untuk skala besar data lebih mudah dan
lebih efektif daripada RSFM. Untuk video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah
ruang dan waktu yang besar kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Varian baru mengubah marjinal kemungkinan
pendekatan maksimisasi yang mengoptimalkan pembangunan diinisialisasi model, menambahkan fungsi kernel langkah demi langkah dan hanya menghitung
parameter yang relevan dengan fitur saat ini dan sampel. Akibatnya, IRSFM dapat diterapkan untuk skala besar data lebih mudah dan lebih efektif daripada
RSFM. Untuk video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah ruang dan waktu
yang besar kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Varian baru mengubah marjinal kemungkinan pendekatan maksimisasi
yang mengoptimalkan pembangunan diinisialisasi model, menambahkan fungsi kernel langkah demi langkah dan hanya menghitung parameter yang relevan
dengan fitur saat ini dan sampel. Akibatnya, IRSFM dapat diterapkan untuk skala besar data lebih mudah dan lebih efektif daripada RSFM. Untuk video
surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah ruang dan waktu yang besar
kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Untuk video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah
besar video klip. Sebuah masalah serius adalah ruang dan waktu yang besar kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Untuk
H
video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah ruang dan waktu yang besar
kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Zhang [4] et al. disajikan pilihan fitur dan pemilihan sampel metode bersama untuk secara bersamaan menyelesaikan dua m
A
Perkembangan cepat mesin belajar membuat kemajuan besar dari seperti sosial sebagai pengenalan wajah, diagnosis penyakit, pengenalan suara,
klasifikasi citra dan masalah nyata lainnya. Sampel seleksi dan pengurangan dimensi teknik yang sangat penting dalam analisis data skala besar, terutama di
NA
mesin belajar [7, 106]. Makalah ini secara singkat meninjau masalah yang disebabkan oleh akumulasi data skala besar. 'Skala besar' berarti bahwa kuantitas
dan dimensi dari sampel yang diperoleh menjadi semakin besar. Akibatnya, tidak relevan, berlebihan, tidak lengkap dan bising data yang lebih dengan atribut
ultrahigh dihasilkan. Dengan demikian, masalah seperti overfitting, kompleksitas komputasi tinggi dan kecepatan komputasi yang rendah menjadi lebih serius,
A
khususnya di bidang aktif pengolahan data citra. Dengan demikian, konsep dan situasi saat pemilihan sampel dan pengurangan dimensi diuraikan. Kontribusi
M
dari makalah ini adalah untuk merangkum berbagai jenis aplikasi pemilihan sampel dan pengurangan dimensi yang dikombinasikan dengan berbagai metode
pembelajaran mesin, seperti clustering, klasifikasi, set kasar, fuzzy set, soft computing, algoritma heuristik, dll, yang memiliki dikembangkan dalam beberapa
RI
tahun terakhir. Di antara metode ini, kita fokus pada CNN pada khususnya. Perkembangan CNN telah memungkinkan kemajuan besar untuk berbagai bidang
TE
penelitian aktif seperti pengenalan gambar dan klasifikasi. Mekanisme pelatihan lengkap, yang menggabungkan ekstraksi fitur dan seleksi fitur, telah
menghasilkan state-of-the-art hasil. Dari tulisan ini, jelas bahwa kedua teknik ini telah diterapkan secara luas, tetapi belum ada metode universal untuk
pemilihan sampel dan pengurangan dimensi yang dapat diterapkan untuk semua masalah. Setiap masalah khusus biasanya mengadopsi salah satu metode
DI
unik untuk membuat kemajuan relatif terhadap pekerjaan sebelumnya. Menurut literatur yang ada dirangkum dalam makalah ini, kami menemukan bahwa
pemilihan sampel dan Setiap masalah khusus biasanya mengadopsi salah satu metode unik untuk membuat kemajuan relatif terhadap pekerjaan sebelumnya.
Menurut literatur yang ada dirangkum dalam makalah ini, kami menemukan bahwa pemilihan sampel dan Setiap masalah khusus biasanya mengadopsi salah
satu metode unik untuk membuat kemajuan relatif terhadap pekerjaan sebelumnya. Menurut literatur yang ada dirangkum dalam makalah ini, kami
metode pengurangan dimensi baik menggunakan hanya satu dari teknik ini atau menggunakan semua berurutan atau secara simultan. Menghadapi
masalah yang menantang yang disebabkan oleh data yang berskala besar, adalah mungkin bahwa mekanisme umum yang sekering metode pemilihan
sampel dengan metode pengurangan dimensi, seperti yang diilustrasikan Gambar. 9 dan Gambar. 10, akan mendapatkan kinerja yang lebih baik.
Kami memiliki ide bahwa apakah struktur yang menggabungkan dua metode pengurangan dimensi, ekstraksi fitur dan seleksi
H
fitur, seperti CNN dapat digunakan dalam pengolahan data dengan pemilihan sampel pada waktu yang sama. Gambar. 9 dan Gambar.
A
Dari kesimpulan dari tulisan ini, kita dapat melihat bahwa data untuk pembelajaran mesin tradisional berbeda dari CNN. Di CNN,
model biasanya proses data gambar secara langsung, yaitu jaringan akan mengekstrak fitur yang berguna dengan sendirinya, dan sampel
NA
hampir sama lebih mungkin. Namun dalam metode pembelajaran mesin tradisional, bidang aplikasi yang liar dan metode pengolahan data
seperti pemilihan sampel dan pengurangan dimensi yang sering digunakan. Aplikasi metode pembelajaran mesin dalam makalah ini berisi
beragam macam bidang, seperti kedokteran, biologi, pertanian, aerospace, lalu lintas dan sebagainya. Dan sebagian besar tujuan yang
A
untuk mengklasifikasikan dan memprediksi. Dalam beberapa tahun terakhir, multi-task dan klasifikasi multi-label mendapatkan populer.
M
Seperti disebut sebelumnya, Pemilihan sampel dan pengurangan dimensi memainkan peran penting untuk aplikasi yang sukses. Dalam
setiap bidang studi, cara pemilihan sampel dan pengurangan dimensi yang jauh berbeda karena bentuk data yang berbeda, tugas yang
RI
berbeda dan lingkungan simulasi yang berbeda. Itu sebabnya kami kumpulkan begitu banyak metode dengan segala macam bentuk
TE
Pemilihan sampel bisa menghapus data yang berlebihan dan membuat training set seimbang, sehingga dapat melatih classifier
lebih kuat. Perlu dicatat bahwa dengan akumulasi data yang lebih dan lebih, metode pemilihan sampel tanpa pengawasan dan metode
bias seleksi sampel mendapatkan penting secara bertahap. Adapun seleksi fitur dan ekstraksi fitur, studi lebih dan lebih menjaga titik
pada bahwa bagaimana untuk mendapatkan fitur mempertimbangkan hubungan dengan tugas saat ini. Akhirnya, kertas membuat
Dalam pengolahan data saat ini skala besar, pemilihan sampel dan pengurangan dimensi keduanya langkah yang
diperlukan. Karena granularities yang berbeda dari representasi data, yang paling dipilih
DITERIMA NASKAH
Agar seleksi sampel pertama, dan kemudian pengurangan dimensi. Pemilihan sampel sering berfokus pada jumlah dan distribusi
seluruh set data asli. Sebaliknya, pengurangan dimensi akan memproses sampel ke dalam representasi yang lebih dalam sebagai
fitur atau dimensi. Dalam rangka untuk memahami data dasarnya, ada beberapa penelitian menemukan cara untuk mengadopsi
pengurangan dimensi dan pemilihan sampel pada waktu yang sama. Dengan cara ini, tidak hanya dapat mengurangi waktu lebih
lanjut, tetapi juga memilih data yang lebih baik dan fitur untuk tugas. Melalui kesimpulan di atas, kita tahu bahwa pengurangan
dimensi meliputi seleksi fitur dan ekstraksi fitur, tapi hampir semua aplikasi hanya menggunakan salah satu dari mereka. seleksi
fitur dan ekstraksi fitur adalah dua cara yang berbeda untuk mendapatkan fitur data, tetapi mereka dapat saling membantu. Sebagai
contoh, kita menganggap bahwa apakah fitur didapatkan ekstraksi fitur semua efektif? Dan bisa kita lanjut memilih fitur diekstrak
melalui metode seleksi fitur? Dan selanjutnya, bagaimana menggabungkan pemilihan sampel, ekstraksi fitur dan pemilihan fitur
Karya ini didukung oleh Dana Penelitian Fundamental untuk Universitas Central [No. 2015XKMS08].
Referensi
[1] WWY Ng, DS Yeung, I. Cloete, pemilihan sampel Masukan untuk masalah klasifikasi jaringan saraf RBF menggunakan
sensitivitas ukuran, Sistem, Man dan Sibernetika, 2003. IEEE International Conference on 2003, 3 (2003) 2593-2598,
https: // doi .org / 10,1109 / ICSMC.2003.1244274. [2] AL Blum, P. Langley, Pemilihan fitur yang relevan dan contoh
H
dalam pembelajaran mesin, artif INTELL, 97 (1-2) (1997) 245-271, https://doi.org/10.1016/S0004-3702 (97) 00.063 -5.
A
[3] Y. Zhai, YS Ong, I. Tsang, Membuat Triliun Korelasi Kelayakan di Fitur Pengelompokan dan Seleksi, Transaksi IEEE
SK
pada Pola Analisis & Mesin Intelijen, 38 (12) (2016) 2472-2486, https://doi.org/10.1109 /TPAMI.2016.2533384. [4] M.
Zhang, R. Dia, D. Cao, Z. Sun, T. Tan, Fitur Simultan dan Pengurangan Contoh untuk Gambar-Set Klasifikasi, AAAI
2016 1401-1407. [5] JV Hulse, kualitas data dalam data mining dan mesin belajar [M]. Florida Atlantic University,
NA
A
2007.
M
[6] XZ Wang, LC Dong, JH Yan, Maksimum seleksi berbasis ambiguitas sampel dalam fuzzy induksi pohon keputusan,
Transaksi IEEE pada Knowledge & Data Engineering, 24 (8) (1997) 1491-1505, https://doi.org/10.1109/ TKDE.2011.67.
RI
[7] C. Garc A-Osorio, D. Haro-Garc, A. Aida, A-Pedrajas.N. Garc, Demokrat misalnya seleksi: Sebuah kompleksitas
TE
contoh algoritma seleksi linear berdasarkan konsep classifier ensemble, Artificial Intelligence, 174 (5-6) (2010) 410-441,
https://doi.org/10.1016/j.artint.2010.01. 001. [8] PEHart, kental aturan tetangga terdekat, IEEE T INFORM TEORI, 14 (3)
(1968) 515-516, https://doi.org/10.1109/TIT.1968.1054155. [9] DW Aha, D. Kibler, MK Albert, Instance berbasis algoritma
DI
pembelajaran. Machine Learning, 6 (1) (1991) 37-66, https://doi.org/10.1007/BF00153759. [10] fungsi objektif berbasis
Informasi DJC Mackay, untuk seleksi data aktif, SYARAF COMPUT, 4 (4) (1992) 590-604,
https://doi.org/10.1162/neco.1992.4.4.590. [11] H. Xu, H. Zha, RC Li, MA Davenport, Active berjenis belajar melalui
gershgorin lingkaran pemilihan sampel dipandu, Dua puluh Kesembilan AAAI Konferensi Artificial Intelligence, AAAI
Press, 2015,
DITERIMA NASKAH
pp. 3108-3114. [12] A. Moayedikia, KL Ong, YL Boo, WG Yeoh, R. Jense, seleksi Fitur untuk data kelas tidak
seimbang tinggi dimensi menggunakan pencarian harmoni, Aplikasi Teknik Artificial Intelligence, 57 (2017) 38-49, https://doi.org/10.1016/j.engappa
[13] COS Sorzano, J. Vargas, AP Montano, Sebuah survei teknik pengurangan dimensi, Ilmu Komputer, 2014. [14] F.
Wang, J. Sun, Survey jarak metrik pembelajaran dan pengurangan dimensi dalam data mining, Kluwer Academic
Publishers, 2015. [15] H. Xie, J. Li, H. Xue, Sebuah survei teknik pengurangan dimensi berdasarkan proyeksi acak,
2017. [16] M. Arellano, S. Bonhomme, Pemilihan Sampel di Quantile Regresi: A Survey, Kertas Kerja,
2017.
[17] ekstraksi fitur berbasis PSO CG Tao, LL Zhao, XH Su, PJ Ma, untuk dimensi tinggi sampel kecil, IEEE Konferensi
Internasional Kelima Advanced Komputasi Intelijen, 8267 (2012) 229-233, https://doi.org/10.1109/
ICACI.2012.6463157. [18] J. Krawczuk, T. Lukaszuk, Masalah seleksi fitur bias dalam kaitannya dengan gen
dimensi tinggi
data, Buatan Intelijen di Medicine, 66 (2016) 63-71,
[20] N. Zhang, T. Xiao, Algoritma pemilihan sampel berdasarkan entropi maksimum dan kontribusi. Konferensi
Internasional tentang Machine Learning dan Sibernetika, ICMLC 2010, Qingdao, China, 11-14 Juli 2010, Prosiding, 1
H
berbasis seleksi bagian jarang. transaksi IEEE pada analisis pola dan kecerdasan mesin, 38 (11) (2016) 2182-2197,
SK
https://doi.org/10.1109/TPAMI.2015.2511748 .
NA
[22] YH Zhou, L. Huang, XI Mao-panjang, Quantum berperilaku partikel algoritma optimasi segerombolan dengan
pilihan acak optimal [J] individu. Journal of Aplikasi Komputer, 4 (6) (2009) 189-193. [23] W. Sun, AP Lin, HS Yu,
QK Liang, GH Wu, All-dimensi berdasarkan lingkungan optimasi partikel swarm dengan tetangga yang dipilih
A
secara acak [J]. Ilmu An International Journal, 405 (C) (2017) 141-156, https://doi.org/10.1016/j.ins.2017.04.007.
M
[24] W. Guicquero, P. Vandergheynst, T. Laforest, A. Dupret, Pada pixel pilihan acak adaptif untuk penginderaan
tekan [C] // Signal dan Informasi Pengolahan. IEEE, 234 (2015) 701-708.
RI
untuk Hyperspectral Citra [J]. Transaksi IEEE pada Geoscience & Remote Sensing, 49 (5)
DI
(2011) 1578-1589,
https://doi.org/10.1109/TGRS.2010.2081677 [26] BQ Gong, K. Grauman, F. Sha, Menghubungkan titik-titik dengan
landmark: diskriminatif belajar fitur domain-invarian untuk adaptasi domain tanpa pengawasan, JMLR W & CP, 28 (1) (2013)
222-
230.
[27] YX Liao, XZ Pan, Sebuah Metode Baru Seleksi Sampel Pelatihan Klasifikasi Teks, Workshop Internasional
tentang Pendidikan Teknologi & Ilmu Komputer, 1 (2010) 211-214, https://doi.org/10.1109/ETCS.2010.621.
DITERIMA NASKAH
[28] M. Chellasamy, PAT Ferre, M. Humlekrog Greve, pemilihan sampel pelatihan otomatis untuk pendekatan klasifikasi
tanaman berbasis multi-bukti, Arsip Internasional dari Fotogrametri Remote Sensing & S, XL-7 (7) (2014) 63-69, https :
Dua-tahap seleksi sampel yang efektif pengelompokan berdasarkan klasifikasi dari pra-miRNAs, IEEE International
Conference on Bioinformatika
https://doi.org/10.1109/BIBM.2010.5706626. [30] X. Li, M. Fang, JJ Zhang, JQ Wu, Pemilihan sampel untuk adaptasi domain
https://doi.org/10.1016/j.image.2016.03.009. [31] JT Xia, MY Dia, YY Wang, Y. Feng, Algoritma pelatihan cepat untuk
mesin dukungan vektor melalui seleksi batas sampel, Konferensi Internasional tentang Neural Networks dan Signal
Processing, 1 (2004) 20-22, https://doi.org /10.1109/ICNNSP.2003.1279203. [32] XT Niu, Fcm-lssvm berdasarkan seleksi
sampel pelatihan, Metalurgi & Industri Pertambangan, (9) (2015) 751. [33] JH Zhai, C. Li. T. Li, Pemilihan Sampel
Berdasarkan KL Divergence untuk Efektif Pelatihan SVM, IEEE SYS MAN CYBERN, 8215 (2013) 4837-4842,
https://doi.org/10.1109/SMC.2013.823. [34] HW Hao, RR Jiang, metode Pelatihan pemilihan sampel untuk jaringan saraf
https://doi.org/10.1360/aas-007-1247 .
[35] DG Chen, X. Zhang, ECC Tsang, YP Yang, Pemilihan sampel dengan set kasar, Konferensi Internasional
H
https://doi.org/10.1109/ICMLC.2010.5581051. [36] E.
SK
Yang, Z. Ma, F. Nie, X. Chang, AG Hauptmann, Multi-Class Active Learning oleh Ketidakpastian Sampling dengan
keragaman Maksimalisasi, International Journal of Computer Vision, 113 (2) (2015) 113-127, https://doi.org/10.1007/s11263-014-0781-x.
[38] Y. Guo, L. Ma, F. Zhu, FJ Liu, Memilih Sampel Pelatihan dari Skala Besar Sampel-Penginderaan Jauh Menggunakan
A
Algoritma Pembelajaran Aktif, Computational Intelligence dan Sistem Cerdas. Springer Singapura, 575 (2015) 40-51,
M
https://doi.org/10.1007/978-981-10-0356-1_5. [39] WW Yuan, YK Han, DH Guan, SY Lee, YK Lee, Seleksi data Pelatihan
awal untuk Pembelajaran Aktif, Prosiding Konferensi Internasional ke-5 pada Manajemen Informasi Ubiquitous dan
RI
Komunikasi 2011, https://doi.org/10.1145/1968613.1968619. [40] RJ Goudie, S. Mukherjee, A sampler Gibbs untuk belajar
TE
DAGs, Journal of Machine Learning Penelitian, 17 (30) (2016) 1-39. [41] JJ Heckman, Contoh bias seleksi sebagai
161, https://doi.org/10.2307/1912352. [42] B. Zadrozny, Belajar dan Mengevaluasi Classifiers bawah Pemilihan Sampel
https://doi.org/10.1145/1015330.1015425. [43] D. Wu, DZ Lin, L. Yao, WJ Zhang, Mengoreksi Contoh Seleksi Bias
3 Konferensi Internasional tentang Sistem Cerdas dan Pengetahuan Teknik, (2008) 1214-1220, https://doi.org/10.1109/ISKE.2008.4731115
.
[44] B. Schölkopf, J. Platt, T. Hofmann, Campuran Regresi untuk Pergeseran kovariat [C] // Konferensi Internasional
tentang Neural Sistem Informasi Pengolahan. MIT Press, (2006) 1337-1344. [45] AT Smith, C. Elkan, Membuat
pengklasifikasi generatif kuat untuk bias seleksi [C] // ACM SIGKDD Konferensi Internasional tentang Knowledge
Discovery dan Data Mining. ACM, (2007) 657-666, https://doi.org/10.1145/1281192.1281263. [46] R. Romero, EL
Iglesias, L. Borrajo, Bangunan Biomedis Classifiers Teks di bawah Sample Selection Bias [M] // Simposium
Internasional Computing Distributed dan Kecerdasan Buatan. Springer Berlin Heidelberg, 91 (2011) 11-18. [47] N.
Krautenbacher, FJ Theis, C. Fuchs, Mengoreksi Classifiers Sampel Bias Seleksi di Dua Tahap Studi Kasus-Kontrol
[J]. Komputasi & Matematika Metode dalam Kedokteran, 2017, https://doi.org/10.1155/2017/7847531. [48] M. Tan, IW
Tsang, L. Wang, Menuju seleksi fitur dimensi ultrahigh untuk data besar, Journal of Machine Learning Penelitian, 15
(1) (2014) 1371-1429. [49] KQ Weinberger, LK Saul, Pengantar pengurangan dimensi nonlinear dengan varians
maksimum berlangsung, Konferensi Nasional Artificial Intelligence. AAAI Press, 2 (2006) 1683-1686. [50] R. Kohavi,
GH John, Wrappers untuk seleksi fitur bagian, Artificial Intelligence, 97 (0) (1997) 273-324, https://doi.org/10.1016/S0004-3702
(97) 00043-X. [51] N. Armanfard, JP Reilly, M. Komeili, Seleksi Fitur lokal untuk Klasifikasi Data, Transaksi IEEE pada
Pola Analisis dan Mesin Intelijen, 38 (6) (2016) 1217-1227, https://doi.org/10.1109/TPAMI. 2.015,2478471. [52] D.
Ramyachitra, M. Sofia, P. Manikandan, Interval-nilai berdasarkan partikel swarm algoritma optimasi untuk
kanker-pemilihan jenis gen spesifik dan klasifikasi sampel. Genomics Data, 5 (2015) 46-50,
pengurangan dimensi menggunakan algoritma pengelompokan dalam rekonstruksi gen regulasi jaringan, Konferensi
Internasional tentang Komputer, Komunikasi, dan Pengendalian Teknologi, 5 (2015) 1031-1034, https :
H
hidup untuk data medis yang tinggi-dimensi, heterogen: Menjelajahi ekstraksi fitur sebagai alternatif untuk fitur seleksi,
SK
JIKA Chung, Mekanisme terpadu untuk seleksi fitur dan ekstraksi aturan kabur
NA
A
M
RI
TE
Ekstraksi Berdasarkan Maksimalisasi Reksa Informasi, Machine Learning untuk Signal Processing, 2006.
Prosiding
2006, Lokakarya Masyarakat IEEE Signal Processing pada 2006; 343-348,
[58] C. Lee, DA Landgrebe, Fitur Ekstraksi Berdasarkan Batas Keputusan [J]. Pola Analisis & Mesin
Intelijen Transaksi IEEE di, 15 (4) (1993) 388-400,
DITERIMA NASKAH
Jolliffe, analisis komponen utama. Springer Berlin, 87 (100) (1986) 41-64, https://doi.org/10.1007/b98835.
[61] AM Martínez, AC Kak, Pca dibandingkan lda, Pola Analisis & Mesin Intelijen IEEE Transaksi pada 2001; 23
(3-4): 228-233, https://doi.org/0.1109/34.908974. [62] VN Vapnik, Sifat teori belajar statistik, Neural Networks IEEE
Transaksi pada 1995; 10 (5): 988-999, https://doi.org/10.1007/978-1-4757-3264-1. [63] FW Young, RM Hamer,
Multidimensional skala: sejarah, teori, dan aplikasi, JR STAT SOC 37 (1) (1988). [64] JB Tenenbaum, VD Silva, JC
Langford, Kerangka geometrik global untuk dimensi nonlinear
1875-1883, https://doi.org/10.1109/CISP.2011.6100531. [66] L. Zhang, T. Zhang, B. Du, D. Tao, J. Anda, Robust Manifold
Matrix Faktorisasi untuk Joint Clustering dan Fitur Ekstraksi, AAAI, (2017) 1662-1668. [67] J. Wangni, N. Chen, nonlinear
Ekstraksi Fitur dengan Max-Margin data Shifting, AAAI, (2016) 2208-2214. [68] J. Li, J. Zhao, K. Lu, Seleksi Fitur Joint
dan Struktur Pelestarian untuk Domain Adaptasi, IJCAI, (2016) 1697-1703. [69] Y. Lecun, L. Bottou, Y. Bengio, P.
H
Haffner, pembelajaran berbasis Gradient diterapkan untuk mendokumentasikan pengakuan, P IEEE, 86 (11) (1998)
A
2278-2324, https://doi.org/10.1109/5.726791 . [70] XX Niu, CY Suen, Sebuah novel hybrid cnn-svm classifier untuk
SK
mengenali tulisan tangan digit, POLA recogn, 45 (4) (2012) 1318-1325, https://doi.org/10.1016/j.patcog.2011.09.021. [71] A.
Barbu, Y. Dia, L. Ding, G. Gramajo, Seleksi Fitur dengan Anil untuk Big data Learning, ePrint arXiv,, 39 (2) (2014)
272-286. [72] F. Nie, W. Zhu, X. Li, seleksi fitur Unsupervised dengan optimasi grafik terstruktur, Thirtieth AAAI
NA
Konferensi Artificial Intelligence. AAAI Tekan 2016; 1302-1308. [73] H. Mhamdi, F. Mhamdi, Fitur Metode Seleksi Hayati
Optimization untuk Multi-Class Klasifikasi, IJCAI, (2016) 1918-1924. [75] Y. Mohsenzadeh, H. Sheikhzadeh, S. Nazari,
DI
Incremental mesin sampel-fitur relevansi: marjinal pendekatan kemungkinan maksimalisasi cepat untuk seleksi fitur
bersama dan klasifikasi, POLA recogn, 60 (2016) 835-848, https://doi.org /10.1016/j.patcog.2016.06.028. [76] H. Mi, C.
Petitjean, B. Dubray, P. Vera, R. Su, seleksi fitur Kuat untuk memprediksi tumor hasil pengobatan,
seleksi fitur tanpa pengawasan dengan batas-batas dapat dibuktikan pada suboptimality, Thirtieth AAAI Konferensi
Artificial Intelligence. AAAI Tekan 2016; 4194-4195. [79] H. Arai, C. Maung, K. Xu, H. Schweitzer, Seleksi Fitur
Unsupervised oleh heuristik Cari dengan dapat dibuktikan Bounds pada Suboptimality, AAAI, (2016) 666-672. [80] CJC
Burges, pengurangan Dimensi: tur, Yayasan & Trends® di Machine Learning; 2 (4) (2010) 262-286,
https://doi.org/10.1561/2200000002. [81] M. Loderer, J. Pavlovicova, M. Feder, M. Oravec, reduksi dimensi data dalam
strategi pelatihan untuk sistem pengenalan wajah, Konferensi Internasional tentang Sistem, Sinyal dan Pengolahan Citra
2014; 263-266. [82] R. Pighetti, D. Pallez, F. Precioso, Meningkatkan SVM Pemilihan Sampel Pelatihan Menggunakan
Algoritma Evolusioner Multi-Objective dan LSH, COMPUT INTELL 2015 IEEE Symposium 2015;
https://doi.org/10.1109/SSCI.2015.197 [83] L. Lefakis, F. Fleuret, Seleksi Fitur Bersama Informatif Dibuat penurut oleh
Gaussian Modeling, Journal of Machine Learning Penelitian, 17 (182) (2016) 1-39. [84] I. Omara, F. Li, HZ Zhang, WM Zuo,
https://doi.org/10.1016/j.eswa.2016.08.035. [85] L. Chen, B. Li, Seleksi Fitur Joint Clustering Berbasis untuk Prediksi
Semantic Atribut, IJCAI, (2016) 3338-3344. [86] HF Zhao, Z. Wang, FP Nie, Orthogonal kuadrat regresi untuk ekstraksi
GH Wang, MG Li, Sebuah metode ekstraksi fitur baru untuk pengenalan adegan berdasarkan convolutional dibatasi
A
[88] S. Løkse, FM Bianchi, R. Jenssen, Pelatihan Echo Negara Networks dengan Regularisasi Melalui Dimensi
NA
https://doi.org/10.1007/s12559-017-9450-z .
A
[89] JH Liu, YJ Lin, Y. Kang, CX Wang, online multi-label Group Feature Selection [J]. Pengetahuan Berbasis Sistem,
M
2017, https://doi.org/10.1016/j.knosys.2017.12.008. [90] L. Jian, J. Li, K. Shu, H. Liu, Multi-label seleksi fitur informasi,
Konferensi Bersama Internasional tentang Artificial Intelligence, AAAI Tekan 2016; 1627-1633. [91] J. Xu, Kerangka
RI
analisis tertimbang linear diskriminan untuk ekstraksi fitur multi-label [J]. Neurocomputing, 275 (2017) 107-120, https://doi.org/10.1016/j.neucom.201
TE
[92] G. D'Angelo, S. Rampone, Fitur ekstraksi dan soft computing metode untuk struktur aerospace cacat
DI
https://doi.org/10.1016/j.patcog.2015.11.015. [94] H. Wei, Z. Dong, Model V4 Neural Network untuk Shape Berbasis
https://doi.org/10.1007/s12559-017-9450-z.
DITERIMA NASKAH
[95] TN Thanh, Z. Li, TV Silander, TY Leong, Seleksi Fitur Online untuk berbasis Model Penguatan Learning,
konferensi internasional tentang pembelajaran mesin 2013; 498-506. [96] J. Luo, ZR Feng, J. Zhang, N. Lu,
pendekatan frekuensi dinamis seleksi fitur berdasarkan klasifikasi dari citra bermotor, Komputer Biologi &
Medicine, 75 (2016) 45-53,
https://doi.org/10.1016/j.compbiomed.2016.03.004 .
[97] SC Wu, AL Swindlehurst, ekstraksi Langsung fitur dari rekaman multi-elektroda untuk lonjakan menyortir [J]. Digital Signal
Processing, 2018, https://doi.org/10.1016/j.dsp.2018.01.016. [98] X. Pang, Y. Liao, Sebuah model klasifikasi teks berdasarkan
pemilihan sampel pelatihan dan fitur adjustement berat badan, Konferensi Internasional Advanced Computer Control, 3 (2010)
penyakit dengan menggunakan data multi-modalitas lengkap melalui matriks penyusutan dan penyelesaian, NeuroImage, 91 (2)
https://doi.org/10.1016/j.neuroimage.2011.09.069. [101]
R. Xia, C. Zong, X. Hu, E. Cambria, Fitur ensemble ditambah pemilihan sampel: domain
adaptasi untuk klasifikasi sentimen. IEEE INTELL SYST, 28 (3) (2013) 10-18,
https://doi.org/10.1109/MIS.2013.27. [102]
VE Neagoe, EC Neghina, seleksi Fitur dengan Ant Colony Optimization dan yang
aplikasi untuk pengenalan pola di citra ruang, IEEE ICC 2016; [103]
H
E. Adeli, F. Shi, L. An, CY Wee, GR Wu, T. Wu, DG Shen, Joint fitur-sampel seleksi
and robust diagnosis of parkinson's disease from mri data, Neuroimage, 141 (2016) 206-219,
https://doi.org/10.1016/j.neuroimage.2016.05.054. [105]
NA
https://doi.org/10.1109/TCYB.2013.2260736. [106]
M
S. Xiang, X. Shen, J. Ye, Efisien nonconvex seleksi fitur kelompok jarang via terus menerus
berlainan
https://doi.org/10.1016/j.artint.2015.02.008 .
TE
DI
DITERIMA NASKAH
catatan biografi:
Xinzheng Xu saat seorang profesor di Universitas Cina Pertambangan dan Teknologi, Cina. Ia menerima
gelar BS dari Shandong Universitas Sains dan Teknologi pada tahun 2002, dan gelar MS nya dari
Universitas Xiamen pada tahun 2005. Dia menerima gelar Ph.D. gelar dari Universitas Cina
Pertambangan dan Teknologi pada tahun 2012. Minat penelitiannya meliputi pengenalan pola,
pembelajaran mesin, dan jaringan saraf et al.
Tianming Liang saat ini menjadi kandidat master di Universitas Cina Pertambangan dan Teknologi,
Cina. Ia menerima gelar sarjana dari Universitas Cina Pertambangan dan Teknologi pada tahun 2015.
H
Jiong Zhu saat ini menjadi kandidat master di Universitas Cina Pertambangan dan Teknologi, Cina.
A
Ia menerima gelar sarjana dari Universitas Cina Pertambangan dan Teknologi pada tahun 2015.
M
Dong Zheng saat ini menjadi kandidat master di Universitas Cina Pertambangan dan Teknologi,
Cina. Ia menerima gelar sarjana dari Universitas Cina Pertambangan dan Teknologi pada tahun
2017. Minat penelitiannya meliputi pengenalan pola dan mesin belajar.
DITERIMA NASKAH
Tongfeng Sun saat ini adalah seorang profesor di Universitas Cina Pertambangan dan Teknologi, Cina. Ia
menerima gelar master dan Ph.D. gelar dari Universitas Cina Pertambangan dan Teknologi pada tahun
2004 dan 2012, masing-masing. Minat penelitiannya termasuk pengolahan informasi yang cerdas,
pengenalan pola, dan pembelajaran mesin et al.
A H
SK
NA
A
M
RI
TE
DI