Anda di halaman 1dari 24

diterima Naskah

Ulasan Pengurangan Dimensi Klasik dan Sampel Metode Seleksi untuk Pengolahan Data
skala besar

Xinzheng Xu, Tianming Liang, Jiong Zhu, Dong Zheng, Tongfeng Sun

PII: S0925-2312 (18) 30.946-9


DOI: https://doi.org/10.1016/j.neucom.2018.02.100
Referensi: NEUCOM 19.860

Untuk tampil di: Neurocomputing

Tanggal diterima: 24 Oktober 2017


tanggal revisi: 19 Februari 2018
tanggal diterima: 26 Februari 2018

Silakan mengutip artikel ini sebagai: Xinzheng Xu, Tianming Liang, Jiong Zhu, Dong Zheng, Tongfeng Sun, Ulasan Pengurangan Dimensi
Klasik dan Sampel Metode Seleksi untuk skala besar Pengolahan Data, Neurocomputing ( 2018), doi: https://doi.org/10.1016/j.neucom.2018.02.100

Ini adalah PDF fi le dari sebuah naskah diedit yang telah diterima untuk publikasi. Sebagai layanan kepada pelanggan kami kami
menyediakan versi awal ini naskah. Naskah akan menjalani copyediting, typesetting, dan review bukti yang dihasilkan sebelum diterbitkan
dalam bentuk fi nal nya. Harap dicatat bahwa selama kesalahan proses produksi dapat ditemukan yang dapat mempengaruhi isi, dan
semua penolakan hukum yang berlaku untuk jurnal berhubungan.
DITERIMA NASKAH

Ulasan Klasik Pengurangan Dimensi dan Sampel

Metode Seleksi untuk Pengolahan Data skala besar


Xinzheng Xu *, Tianming Liang, Jiong Zhu, Dong Zheng, Tongfeng Sun.

Fakultas Ilmu Komputer dan Teknologi, Universitas Cina Pertambangan dan Teknologi, Xuzhou

221.116, Cina;

* Sesuai penulis: xuxinzh@163.com

Abstrak: Di era big data, semua jenis data dengan meningkatnya sampel dan atribut dimensi tinggi yang menunjukkan peran penting mereka dalam berbagai

bidang, seperti pertambangan data, pengenalan pola dan pembelajaran mesin, dll Sementara itu, algoritma pembelajaran mesin sedang efektif diterapkan

dalam pengolahan data skala besar. Makalah ini terutama ulasan klasik pengurangan dimensi dan pemilihan sampel metode berdasarkan algoritma

pembelajaran mesin untuk pengolahan data skala besar. Pertama, kertas menyediakan gambaran singkat untuk pemilihan sampel dan pengurangan dimensi

metode klasik. Kemudian, membayar perhatian pada aplikasi dari metode tersebut dan kombinasi mereka dengan metode pembelajaran mesin klasik, seperti

clustering, hutan acak, himpunan fuzzy, dan algoritma heuristik, khususnya metode yang mendalam bersandar. Selanjutnya, kertas terutama

memperkenalkan kerangka kerja aplikasi yang menggabungkan pemilihan sampel dan pengurangan dimensi dalam konteks dua aspek: sekuensial dan

simultan, yang hampir semua mendapatkan hasil yang ideal dalam pengolahan data pelatihan skala besar kontras dengan model asli. Terakhir, kita lanjut

menyimpulkan bahwa metode pemilihan sampel dan dimensi pengurangan sangat penting dan efektif untuk pengolahan data skala besar modern. Dalam

pekerjaan di masa depan, algoritma pembelajaran mesin, terutama metode pembelajaran dalam, akan memainkan peran yang lebih penting dalam

pengolahan data skala besar. yang hampir semua mendapatkan hasil yang ideal dalam pengolahan data pelatihan skala besar kontras dengan model asli.
H
Terakhir, kita lanjut menyimpulkan bahwa metode pemilihan sampel dan dimensi pengurangan sangat penting dan efektif untuk pengolahan data skala besar

modern. Dalam pekerjaan di masa depan, algoritma pembelajaran mesin, terutama metode pembelajaran dalam, akan memainkan peran yang lebih penting
A

dalam pengolahan data skala besar. yang hampir semua mendapatkan hasil yang ideal dalam pengolahan data pelatihan skala besar kontras dengan model
SK

asli. Terakhir, kita lanjut menyimpulkan bahwa metode pemilihan sampel dan dimensi pengurangan sangat penting dan efektif untuk pengolahan data skala besar modern. Dalam pekerjaan di mas

Kata kunci: skala besar pengolahan data; Pemilihan sampel; pengurangan dimensi; pembelajaran mesin

metode
NA

1 pengantar
A

Data meningkat dalam skala dan menjadi lebih penting. data besar sekarang muncul di setiap industri dalam masyarakat modern. Dengan terus
M

mengembangkan Artificial Intelligence (AI), data besar telah menjadi sangat penting. Dari IBM Deep Blue untuk Google Alpha Go-rentang waktu hampir 20

tahun-AI telah berkembang dari jaringan saraf untuk algoritma pembelajaran yang mendalam. data besar dan perbaikan dalam daya komputasi telah
RI

mempromosikan pengembangan AI. Kemampuan komputasi dari komputer meningkat secara eksponensial, dan akumulasi data meledak secara bersamaan.
TE

Pembelajaran mesin dan algoritma pembelajaran terawasi harus bergantung pada sejumlah besar sampel pelatihan untuk memastikan kinerja yang kuat [1].

Namun, ada banyak data yang tidak relevan, berlebihan, tidak lengkap dan bising di set pelatihan sebagai jumlah data menjadi semakin lebih besar [2]. Di sisi

lain, data training berskala besar membawa masalah seperti membutuhkan lebih penyimpanan dan kompleksitas komputasi yang lebih besar, sehingga
DI

mempengaruhi kemampuan generalisasi dan mengurangi akurasi prediksi. Itulah kuantitas dan kualitas sampel mempengaruhi kinerja komputer dan

ketahanan dari model. Selain masalah yang terkait dengan sampel, topik aktif lain adalah dimensi [3]. Dengan perbaikan pada kapasitas penyimpanan dan

teknologi analisis, para peneliti telah mulai fokus pada sifat intrinsik dari sampel, yaitu, fitur yang berharga Itulah kuantitas dan kualitas sampel mempengaruhi

kinerja komputer dan ketahanan dari model. Selain masalah yang terkait dengan sampel, topik aktif lain adalah dimensi [3]. Dengan perbaikan pada kapasitas

penyimpanan dan teknologi analisis, para peneliti telah mulai fokus pada sifat intrinsik dari sampel, yaitu, fitur yang berharga Itulah kuantitas dan kualitas

sampel mempengaruhi kinerja komputer dan ketahanan dari model. Selain masalah yang terkait dengan sampel, topik aktif lain adalah dimensi [3]. Dengan

perbaikan pada kapasitas penyimpanan dan teknologi analisis, para peneliti telah mulai fokus pada sifat intrinsik dari sampel, yaitu, fitur yang berharga
DITERIMA NASKAH

atribut dari semua dimensi sampel. Peningkatan jumlah data gambar, seperti gambar wajah, gambar lingkungan dan citra

penginderaan jauh, telah disertai dengan meningkatkan fokus pada visi komputer. Selain itu, data dimensi tinggi, terutama data

gambar, memainkan peran yang semakin penting dalam mengatasi masalah kehidupan nyata [4]. Cara mengekstrak dan

memilih informasi yang paling informatif atau diskriminatif selalu merupakan langkah yang sangat penting dalam semua jenis

bidang komputasi. Terutama di mesin belajar, bahkan dengan model yang sangat kuat dan efektif, jika data miskin, model akan

menunjukkan lebih rendah kemungkinan prediksi [5].

Sudah terlalu banyak masalah yang disebutkan di atas, dua metode yang sering digunakan, pemilihan sampel dan

pengurangan dimensi, diusulkan dan terus ditingkatkan dalam beberapa tahun terakhir. Metode pemilihan sampel dapat

mengurangi biaya komputasi dan bahkan meningkatkan akurasi belajar dengan membuang berlebihan, tidak lengkap, berisik

data dan sampel negatif lainnya [6, 7]. Metode pemilihan sampel tradisional dapat dibagi menjadi dua kategori [6]. Salah satu

jenis adalah data kondensasi seperti Kental Tetangga aturan terdekat [8] dan Instance-Based Learning (IBL) [9], metode ini

bisa menghapus bagian dari sampel yang tidak relevan atau berlebihan tetapi perlu banyak perhitungan. Yang lainnya adalah

pembelajaran aktif yang memilih prat sampel berlabel perwakilan untuk belajar [10, 11]. pembelajaran aktif adalah metode

tanpa pengawasan, sehingga efek dari metode tidak dapat dijamin. Fitur bisa dilihat sebagai partisi yang mendalam dari

sampel, yang menunjukkan pentingnya dalam gambar klasifikasi dan prediksi. Analisis dan perhitungan kedua masalah sulit

untuk data dimensi tinggi, sehingga teknologi pengurangan dimensi muncul pada momen bersejarah. Dan itu sangat penting

dalam model data berskala besar seperti mesin belajar saat ini. Berbeda dari metode pemilihan sampel, metode

pengurangan dimensi fokus pada sifat intrinsik dari sampel. Efek dan perhitungan kecepatan bisa sangat ditingkatkan dengan

memilih atribut diskriminatif atau membuang sejumlah besar dimensi berlebihan. Namun, fitur ruang didapatkan pengurangan

dimensi berarti informasi yang tidak lengkap atau bahkan dilepaskan. Selain itu, ini adalah masalah yang menantang
H

terutama ketika data yang tinggi dalam dimensi. fitur yang tidak memadai akan meningkatkan risiko overfitting dan
A

mendapatkan model yang lebih rendah interpretability [12]. Oleh karena itu, pentingnya pemilihan sampel dan pengurangan
SK

dimensi adalah jelas. Dan hampir semua analisis data berskala besar, terutama belajar dalam, gunakan pengurangan

dimensi dan metode pemilihan sampel. metode pembelajaran mesin telah diterapkan di semua jenis masalah di dunia nyata

seperti pengenalan pola, data mining, analisis prediktif, dll metode pembelajaran mesin klasik, seperti clustering, hutan acak,
NA

himpunan fuzzy, algoritma heuristik, bersandar dalam dan sebagainya, menunjukkan efek yang sempurna sepanjang.

Aplikasi metode pembelajaran mesin yang efisien untuk pemilihan sampel atau pengurangan dimensi telah terbukti

memainkan peran yang semakin penting dalam pengolahan data skala besar,
A
M
RI
TE

Sudah ada beberapa karya yang sama diterbitkan sebelum dan baru-baru ini [13, 14, 15, 16], namun karya-karya baik

fokus pada teori-teori utama dan model sampel seleksi atau pengurangan dimensi, atau fokus pada meninjau masalah
DI

tertentu seperti proyeksi acak berdasarkan pengurangan dimensi di [15] .suatu kontribusi makalah ini adalah untuk

mengambil gambaran singkat dari perkembangan pemilihan sampel dan teknik pengurangan dimensi, dan fokus pada

aplikasi teknik-teknik yang sangat berguna dengan metode pembelajaran mesin. berbagai metode pembelajaran mesin

yang digunakan untuk pemilihan sampel dan pengurangan dimensi dirangkum di koran. Dan kami terutama

memperkenalkan penggunaan kombinasi pemilihan sampel dan pengurangan dimensi. Untuk yang terbaik dari

pengetahuan kita, jenis pekerjaan ini berbeda dari karya yang diterbitkan,

Makalah ini akan menyediakan peneliti dengan pandangan yang jelas dari dua pilihan teori-sampel yang penting
DITERIMA NASKAH

dan dimensi pengolahan data pengurangan-in. Dan penekanan dari makalah ini adalah untuk meninjau semua jenis
aplikasi dengan pemilihan sampel dan pengurangan dimensi metode dalam tugas-tugas pembelajaran mesin yang
lebih mungkin. Makalah ini disusun sebagai berikut. Bagian 2 memperkenalkan pemilihan sampel dan aplikasi di
semua jenis masalah pembelajaran mesin. Pada bagian 3, teknik pengurangan dimensi dibagi menjadi ekstraksi fitur
dan seleksi fitur, dan aplikasi dalam metode pembelajaran mesin selanjutnya diringkas. Secara khusus, Konvolusional
Neural Network (CNN) Model ditekankan sebagai kombinasi dari ekstraksi fitur dan seleksi fitur. aplikasi yang
komprehensif dari pemilihan sampel dan pengurangan dimensi yang dibahas dalam bagian 4. Akhirnya,

2 Pemilihan sampel dalam pembelajaran mesin

model pemilihan sampel dalam analisis statistik tradisional, seperti random sampling, mudah dipahami dan paling umum digunakan, dan mereka

jauh berbeda dari bidang mesin belajar di tujuan. Dalam analisis statistik, peneliti ingin menggunakan bagian-bagian dari sampel untuk mewakili distribusi

probabilitas secara keseluruhan, dan tujuannya adalah untuk mendapatkan lingkup evaluasi perkiraan. Namun, tujuan dari pemilihan sampel dalam

pembelajaran mesin terutama untuk menghapus sampel berlebihan dan berisik. Dalam pembelajaran mesin, pembelajaran terutama dalam, tampaknya

lebih banyak sampel yang lebih baik untuk model. sampel berkualitas tinggi tambahan dapat meningkatkan kemampuan generalisasi dan menghasilkan

akurasi yang lebih baik. Beberapa penelitian dihadapkan dengan beberapa sampel [17] karena jumlah data akumulasi masih kecil atau jumlah kasus lebih

sedikit dari jumlah dimensi [18, 19]. Namun, sebagian besar penelitian dalam pembelajaran mesin menggunakan data besar untuk belajar dan

menganalisis informasi seperti fitur sebanyak mungkin. Para ahli ingin model untuk memberikan jawaban hanya relatif seperti 'ya' atau 'tidak'. Namun,

menganalisis masukan skala besar sampel adalah memakan waktu dan dapat menyebabkan overfitting dari model pelatihan [20]. metode pemilihan

sampel atau seleksi bagian informatif [21] yang penting untuk alasan ini. Skalabilitas merupakan masalah yang harus diperhatikan [7], terutama ketika
H

jumlah yang sangat besar dianggap. pilihan acak digunakan lebih sedikit sekarang dalam pembelajaran mesin, biasanya bertindak sebagai langkah
A

sedikit sebelum proses berikut pengolahan data, atau sebagai pilihan arah acak untuk beberapa algoritma optimasi di mesin belajar [22, 23]. Dalam
SK

beberapa pengolahan masukan skala besar untuk data tunggal seperti urutan video dan gambar itt, pilihan acak dapat digunakan dalam beberapa seleksi

tingkat pixel seperti [24, 25]. Pada bagian ini, aplikasi pemilihan sampel diperkenalkan dalam tiga aspek: diawasi, tanpa pengawasan dan sampel bias

seleksi. Klasifikasi perkiraan metode pemilihan sampel tersebut di mesin belajar ditunjukkan pada tanpa pengawasan dan pemilihan sampel Bias.
NA

Klasifikasi perkiraan metode pemilihan sampel tersebut di mesin belajar ditunjukkan pada tanpa pengawasan dan pemilihan sampel Bias. Klasifikasi

perkiraan metode pemilihan sampel tersebut di mesin belajar ditunjukkan pada Gambar. 1.
A
M
RI
TE
DI

Gambar. 1 kategori pemilihan sampel

2.1 Pemilihan sampel diawasi


Pemilihan sampel telah berhasil diterapkan di berbagai bidang, seperti adaptasi domain visual yang
DITERIMA NASKAH

[26], klasifikasi teks [27], klasifikasi citra satelit [28], klasifikasi RNA [29], dll Li [30] et al. mengusulkan metode pemilihan sampel

novel dalam adaptasi domain visual yang menggunakan jarang coding (SSSC). Algoritma yang pertama memetakan sumber dan

target domain ke dalam ruang bagian umum untuk menghindari masalah yang terkait dengan domain persimpangan. Kemudian,

sumber domain diperlakukan sebagai kamus, dengan yang target domain dapat direpresentasikan melalui kombinasi linear

menggunakan coding jarang. Sampel yang paling relevan dibuang melalui L 2, 1 norma regularisasi. Selain itu, algoritma juga

melatih classifier menggunakan bagian tertentu dari domain target tersebut bahwa model secara bersamaan dapat pilih sampel

dari beberapa domain. Hasil eksperimen menunjukkan efektivitas pada set data populer seperti MNIST, Caltech256 dan lain-lain.

Dalam klasifikasi teks, Liao [27] et al. mengusulkan metode pemilihan sampel baru untuk menghapus sampel berisik

menggunakan nilai keterwakilan yang menunjukkan pentingnya sampel. Hasil eksperimen menunjukkan efektivitas dan efisiensi

dari metode yang diterapkan ke mesin dukungan vektor (SVM) classifier. Untuk memilih sampel batas dan meningkatkan akurasi

klasifikasi untuk SVM, Xia [31] et al. disajikan mekanisme seleksi batas sampel baru bernama BSS-SVM. Niu [32] diterapkan

aliran pemilihan sampel yang sama untuk memprediksi lalu lintas jaringan, mengacu pada algoritma mereka sebagai

FCM-LSSVM. FCM bagian mengacu pada kabur-cara algoritma clustering digunakan untuk menghilangkan outlier dari sampel

asli. Sebuah SVM ditingkatkan digunakan untuk mengklasifikasikan dan memprediksi, dan algoritma buatan Bee Colony juga

digunakan untuk optimalisasi model. Sebagaimana dimaksud, kecepatan dan akurasi keduanya ditingkatkan. Zhai [33] et al.

terapan probabilistik jaringan saraf (PNNs) dan Zhai [33] et al. terapan probabilistik jaringan saraf (PNNs) dan Zhai [33] et al.

terapan probabilistik jaringan saraf (PNNs) dan KL divergence untuk memilih vektor dukungan untuk SVM untuk mengurangi baik

waktu dan kompleksitas ruang. Hao [34] et al. mengusulkan kerangka kerja yang efektif untuk pengenalan karakter tulisan

tangan. Langkah pertama adalah untuk menyingkat dan pilih sampel batas menggunakan tertimbang kental algoritma tetangga

terdekat ditingkatkan. Kemudian, Backpropagation (BP) jaringan saraf diadopsi untuk memprediksi secara efektif. model

meningkatkan kemampuan generalisasi dan mengurangi waktu pelatihan. Chellasamy [28] et al. disajikan pendekatan pemilihan
H

sampel pelatihan otomatis untuk klasifikasi tanaman citra satelit bernama berbasis Ensemble Cluster Penyempitan Approach
A

(ECRA). Kerangka ensemble cluster yang citra satelit dari tanaman atas dasar tekstur, spektral dan vegetasi indeks
SK

masing-masing. Kemudian, sampel perbatasan setiap cluster ditentukan. Dalam hal ini, tiga terpisah Multi-Layer Perceptron

(MLP) jaringan saraf yang digunakan untuk mengevaluasi sampel informatif dan memperbarui subset sampel. Akhirnya, Teori

Pengesahan (ET) digunakan untuk menyelesaikan klasifikasi. Akurasi klasifikasi ditingkatkan dengan hampir 10%, dan
NA

keuntungan yang paling penting adalah klasifikasi otomatis. Zhang [20] et al. digunakan entropi maksimum dan kontribusi sampel

untuk kelas berdasarkan aturan tetangga terdekat (KNN). algoritma baru ini mengurangi kebutuhan penyimpanan dan

mempercepat proses klasifikasi. Chen [35] et al. mengusulkan metode pemilihan sampel berdasarkan set kasar.
A

Santiago-Ramirez [316 et al. mengusulkan mekanisme optimal yang memilih subset terbaik dari sampel pelatihan untuk
M

pengenalan wajah. Garc [7] et al. disajikan metode baru, yang dapat diterapkan untuk setiap metode contoh seleksi tanpa

modifikasi apapun. Metode yang pertama membagi dataset asli menjadi beberapa himpunan bagian menguraikan. Berikutnya,
RI

beberapa pengklasifikasi lemah dipilih untuk membuat keputusan untuk setiap sampel. Mean dari hasil voting digunakan untuk
TE

menentukan subset akhir. Dalam berbagai eksperimen,


DI

2.2 Pemilihan sampel Unsupervised

Dalam banyak kasus, sebuah jumlah yang berlebih dapat mengakibatkan biaya komputasi yang tinggi menugaskan label; sebaliknya, ada

kadang-kadang bisa terlalu sedikit label diketahui [37]. Dengan demikian, algoritma untuk
DITERIMA NASKAH

sampel pelatihan berlabel adalah sama pentingnya. Berdasarkan strategi marjin sampling (MS), Guo [38] et al. memperkenalkan pendekatan belajar aktif

untuk memilih sejumlah kecil sampel pelatihan yang paling efektif dalam skala besar penginderaan jauh masalah klasifikasi citra. Dibandingkan dengan

sistem stratifikasi dan random sampling, efek klasifikasi yang lebih baik, dan ruang dan kompleksitas waktu dikurangi. Wang [6] et al. menyediakan

mekanisme yang memilih sampel yang representatif berdasarkan ambiguitas maksimum dalam pohon keputusan kabur pre-built. Algoritma memilih beberapa

sampel acak dari sampel set asli sebagai training set awal dan label mereka oleh para ahli. Kemudian, sampel yang tersisa dievaluasi menggunakan prinsip

ambiguitas klasifikasi maksimum di pohon keputusan kabur baru dibangun. sampel yang dipilih akhirnya diberi label melalui estimasi. Model ini dapat

mengurangi ruang penyimpanan secara efektif dan mendapatkan nomor yang dikehendaki dari sampel. Yuan [39] et al. dimanfaatkan fuzzy clustering untuk

memilih sampel pelatihan awal untuk belajar aktif. Sebuah pilihan model hybrid (HS) yang berisi seleksi berdasarkan batas (BS) dan seleksi berbasis pusat

(CS) untuk memilih perbatasan dan pusat sampel secara terpisah diusulkan. Kinerja metode untuk pembelajaran aktif baik. Dalam [40], sampler Gibbs yang

menyatu dengan lebih mudah Sebuah pilihan model hybrid (HS) yang berisi seleksi berdasarkan batas (BS) dan seleksi berbasis pusat (CS) untuk memilih

perbatasan dan pusat sampel secara terpisah diusulkan. Kinerja metode untuk pembelajaran aktif baik. Dalam [40], sampler Gibbs yang menyatu dengan

lebih mudah Sebuah pilihan model hybrid (HS) yang berisi seleksi berdasarkan batas (BS) dan seleksi berbasis pusat (CS) untuk memilih perbatasan dan

pusat sampel secara terpisah diusulkan. Kinerja metode untuk pembelajaran aktif baik. Dalam [40], sampler Gibbs yang menyatu dengan lebih mudah untuk

belajar struktural grafik asiklik diarahkan dibangun. Xu [11] et al. pertama ditafsirkan pembelajaran aktif dari sudut pandang murni aljabar pandang dan

dikombinasikan dengan semi-diawasi belajar manifold, di mana metode pemilihan sampel heuristik dipekerjakan untuk pelabelan. Menurut Gershgorin

lingkaran teorema, sebuah band atas dihitung untuk label sampel, dan kerangka kerja berkinerja baik di kedua regresi dan tugas klasifikasi. Yang [37] et al.

juga berfokus pada pemilihan sampel dalam pembelajaran aktif untuk masalah multi-kelas.

2.3 bias seleksi sampel


Dalam ilmu ekonomi, pemilihan sampel Bias [41] hadir ketika sampel tidak dipilih secara acak. Zadrozny [42]
H

memperkenalkan masalah ini ke mesin belajar dan membuktikan bahwa itu benar dengan menganalisis rumus teoritis
A

beberapa metode pembelajaran mesin, seperti pengklasifikasi Bayesian, SVMs, dll Contoh bias seleksi dalam klasifikasi
SK

mesin belajar mengacu pada apakah sampel dipilih sesuai dengan sampel atau sesuai label atau keduanya. Selain itu,

Zadrozny disajikan peserta didik global, seperti lembut marjin SVM dan naif Bayes (NBC), dipengaruhi oleh bias seleksi

sampel, sedangkan peserta didik lokal, seperti hard marjin SVM dan regresi logistik, tidak. Kemudian, Wu [43] et al. lanjut
NA

mempelajari masalah bias seleksi sampel mengoreksi dalam klasifikasi citra. density estimasi kernel (KDE) digunakan untuk

memprediksi distribusi tes diatur sesuai dengan training set. Hasil klasifikasi menunjukkan efektivitas kerangka dengan

pengklasifikasi seperti NBC dan SVM.


A
M

bias seleksi sampel juga disebut pergeseran kovariat [44], dan biasanya digunakan dalam data bahwa distribusi berbeda
RI

antara set pelatihan dan test set [45]. Terutama dalam konstruksi semi-diawasi data pelatihan, bagaimana untuk memilih sampel
TE

berlabel sesuai dengan beberapa sampel berlabel adalah kunci untuk membuat classifier yang lebih baik. Sebagai contoh, dalam

publikasi medis, ketidakseimbangan data membuat teks biomedis klasifikasi tantangan besar untuk mesin belajar. Ketika melatih

classifier SVM, ketidakseimbangan nomor pada setiap kelas akan mengurangi akurasi tes. Romero [46] et al. mencoba untuk
DI

membangun sebuah teks biomedis training set yang seimbang melalui tiga sampel teknik bias seleksi: undersampling, resampling

dan subsampling strategi. Oversampling dan subsampling bisa merekonstruksi jumlah dan distribusi kelas minoritas dan kelas

mayoritas, masing-masing. Dan penulis menemukan bahwa subsampling dengan polinomial SVM bisa mendapatkan performa

klasifikasi yang lebih baik pada teks biomedis seimbang. Krautenbacher [47] et al. juga digunakan sampel bias seleksi untuk

memperbaiki pengklasifikasi data bertingkat dari studi epidemiologi.

3 pengurangan dimensi
DITERIMA NASKAH

Dengan dataset menjadi semakin besar, dimensi dari data tunggal juga meningkat; masalah ini kadang-kadang disebut dimensi sebagai ultrahigh [48].

teknik pengurangan dimensi memetakan data dimensi tinggi ke ruang yang lebih rendah dimensi [49]; teknik tersebut digunakan secara luas dalam

pembelajaran mesin, terutama dalam belajar dalam, sebagai metode pra-pengolahan data yang diperlukan. Tujuan utama dari pengurangan dimensi adalah

untuk menemukan ruang bagian yang paling berguna dan informatif yang tidak hanya mengurangi kompleksitas komputasi, tetapi juga, yang paling penting,

menyesuaikan model semaksimal [50]. Dalam beberapa keadaan, jumlah dimensi sampel jauh lebih dari jumlah sampel [51]. Sebagai contoh, banyak peneliti

telah menemukan bahwa sejumlah fitur seringkali lebih besar dari jumlah sampel dalam aplikasi bioinformatika [52]. Dengan demikian, untuk menghindari

bencana dimensi dan overfitting, pengurangan dimensi diperlukan. Ada dua aspek utama dalam pengurangan dimensi: ekstraksi fitur dan fitur pemilihan [53].

seleksi fitur mengacu memilih sebagian dari dimensi asli yang paling penting untuk tugas itu, sedangkan ekstraksi fitur mengacu penggalian set representasi

baru dan lebih kecil dari ruang dimensi asli [54]. Kadang-kadang, ekstraksi fitur sulit untuk menjelaskan dan sulit untuk mengadopsi dalam beberapa aplikasi

kritis [55]. Biasanya, metode seleksi fitur lebih mudah dan digunakan lebih luas daripada ekstraksi fitur [55]. Dalam seleksi fitur, beberapa dikurangi dimensi

yang paling relevan untuk model target yang dipilih dari ruang input asli. ekstraksi fitur mengubah ruang asli untuk subruang rendah-dimensi. Struktur dapat

diubah relatif terhadap struktur asli oleh (non-) menggabungkan linear fitur yang ada [56]. Dengan demikian, seleksi fitur lebih berguna dalam klasifikasi teks

dan seleksi gen, dan ekstraksi fitur umumnya diterapkan dalam klasifikasi citra dan pengenalan pola. teknik pengurangan dimensi dapat dibagi lagi sesuai

dengan aspek-aspek berikut: linear atau nonlinear, diawasi atau tanpa pengawasan, lokal atau global [57]. Metode tersebut secara luas diterapkan dalam

klasifikasi, clustering, regresi, prediksi, dan sebagainya. Jenis dan penerapan bidang pengurangan dimensi diilustrasikan dalam ekstraksi fitur mengubah

ruang asli untuk subruang rendah-dimensi. Struktur dapat diubah relatif terhadap struktur asli oleh (non-) menggabungkan linear fitur yang ada [56]. Dengan

demikian, seleksi fitur lebih berguna dalam klasifikasi teks dan seleksi gen, dan ekstraksi fitur umumnya diterapkan dalam klasifikasi citra dan pengenalan

pola. teknik pengurangan dimensi dapat dibagi lagi sesuai dengan aspek-aspek berikut: linear atau nonlinear, diawasi atau tanpa pengawasan, lokal atau

global [57]. Metode tersebut secara luas diterapkan dalam klasifikasi, clustering, regresi, prediksi, dan sebagainya. Jenis dan penerapan bidang pengurangan

dimensi diilustrasikan dalam ekstraksi fitur mengubah ruang asli untuk subruang rendah-dimensi. Struktur dapat diubah relatif terhadap struktur asli oleh
H
(non-) menggabungkan linear fitur yang ada [56]. Dengan demikian, seleksi fitur lebih berguna dalam klasifikasi teks dan seleksi gen, dan ekstraksi fitur

umumnya diterapkan dalam klasifikasi citra dan pengenalan pola. teknik pengurangan dimensi dapat dibagi lagi sesuai dengan aspek-aspek berikut: linear
A

atau nonlinear, diawasi atau tanpa pengawasan, lokal atau global [57]. Metode tersebut secara luas diterapkan dalam klasifikasi, clustering, regresi, prediksi,
SK

dan sebagainya. Jenis dan penerapan bidang pengurangan dimensi diilustrasikan dalam Struktur dapat diubah relatif terhadap struktur asli oleh (non-) menggabungkan linear fitur yang ada [56]. D
NA
A
M
RI
TE
DI

Gambar. 2 jenis dan bidang penerapan pengurangan dimensi

Pada bagian ini, pertama kita singkat memperkenalkan teori dasar pengurangan dimensi. Selanjutnya, ringkasan

yang lebih rinci dari ekstraksi fitur dan seleksi fitur, dua aspek utama dari pengurangan dimensi, dan aplikasi yang luas

mereka diberikan.

3.1 ekstraksi fitur


Seperti disebutkan di atas, metode ekstraksi fitur mengekstrak informasi dari ruang sampel asli dan membuat
sebuah transformasi sehingga fitur berubah [58]. Mereka biasanya digunakan dalam data citra. metode ekstraksi fitur
dapat dibagi menjadi teknik linear dan nonlinear [59]. metode linear perwakilan meliputi Analisis Principal Component
(PCA) [60] dan linear
DITERIMA NASKAH

analisis diskriminan (LDA) [61]. PCA merupakan salah satu metode pengurangan dimensi linier paling klasik. Ide utama adalah

untuk menemukan ruang bagian optimal yang mewakili distribusi data, yaitu, matriks pemetaan yang terdiri dari yang pertama n vektor

fitur yang sesuai dengan nilai-nilai fitur terbesar dari matriks kovarians. Ada juga banyak teknik nonlinear, seperti Kernel PCA

[62], Multidimensional Scaling (MDS) [63] dan isometrik Fitur Pemetaan (Isomap) [64], yang tampil baik pada data nonlinier yang

kompleks [65]. Banyak penelitian dilakukan untuk mengeksplorasi metode ekstraksi fitur sederhana dan efisien dalam

pembelajaran mesin, seperti [66, 67].

Untuk pembangunan kerangka kerja atau kerangka lengkap, desain metode ekstraksi fitur yang lebih penting daripada melatih

classifier kompleks [68]. Di sini, kita akan memperkenalkan model ekstraksi fitur yang sangat sukses digunakan dalam pengolahan citra.

Dalam pembelajaran berkembang dengan cepat, dan mendapat begitu banyak negara-of-art efek hari ini. CNN [69] adalah jenis

jaringan saraf dalam umpan-maju dengan struktur convolutional yang melakukan dengan sangat baik. Hal ini terdiri dari dua bagian:

fitur extractor otomatis dan classifier dilatih. Struktur CNN primitif, seperti yang digunakan di Lenet-5, ditunjukkan pada Gambar. 3.

A H
SK

Gambar. 3 arsitektur CNN

Model input gambar langsung, fitur global dan lokal yang diekstrak melalui lapisan konvolusi linear. Setelah lapisan lilit,
NA

berikut ini biasanya adalah non-linear lapisan polling. Lapisan polling bisa mengurangi resolusi fitur diekstrak, dan ada dua

metode lapisan polling yang biasanya digunakan dalam jaringan. Untuk rata-rata polling, dapat dilihat sebagai suatu proses

ekstraksi fitur lebih lanjut untuk mengurangi perhitungan. Untuk cara max polling, hal itu dapat dilihat sebagai pilihan fitur untuk
A

mendapatkan titik paling penting dari fitur lokal. Proses pelatihan yang lengkap dapat diamati sebagai kombinasi indah ekstraksi
M

fitur dan seleksi fitur, seperti yang ditunjukkan pada Gambar. 4.


RI
TE

Gambar. 4 aliran data di CNN


DI

Hal ini dapat memperoleh hasil yang sangat baik karena model menganggap karakteristik intrinsik dari gambar. Dalam referensi

[70], penulis mengusulkan sebuah novel CNN-SVM kerangka di mana model CNN digunakan untuk mengekstrak dan memilih fitur

diskriminatif, dan SVM digunakan sebagai classifier super. Model fusi memperoleh tingkat pengakuan yang sangat tinggi pada MNIST

basis data tulisan tangan.

3.2 seleksi fitur


Tujuan seleksi fitur adalah untuk memilih bagian yang paling penting dari subset fitur di bawah kriteria evaluasi tertentu dan

mempertahankan konstruk asli dan informasi [18]. Ini adalah masalah optimasi yang terintegrasi dengan biaya komputasi yang tinggi.

Dengan demikian, ada karya yang mempelajari bagaimana untuk memilih


DITERIMA NASKAH

fitur lokal yang mewakili ruang sampel daripada fitur global yang [51]. metode seleksi fitur tradisional biasanya menghitung

skor setiap fitur dalam satu area secara independen, dan kemudian, atas n fitur yang dipilih sesuai dengan skor. Jenis skor

digunakan untuk mengevaluasi kemampuan cluster yang berbeda membedakan untuk fitur tertentu. Jelas, metode

melakukan dengan baik pada klasifikasi biner tetapi tidak baik untuk masalah multi-klasifikasi. Untuk data yang besar dan

dimensi tinggi, metode seleksi fitur menghadapi tantangan berikut: efisiensi, universalitas, implementasi kemudahan, dan nonlinier

[71]. Di sisi lain, banyak meningkatkan data yang berlabel dengan kebutuhan berdimensi tinggi untuk diproses dalam

pembelajaran mesin, yang membuat seleksi fitur tanpa pengawasan masalah yang semakin menantang dan penting [72].

Menurut model pencarian seleksi fitur, metode seleksi fitur termasuk pembungkus, filter dan hibrida (ensemble) [73, 74].

metode wrapper adalah sistem kotak hitam yang menggunakan informasi prediksi saat ini. metode wrapper tampil baik di

menemukan subset fitur yang optimal untuk mendapatkan hasil yang lebih baik daripada metode saringan [75]. Namun, metode

wrapper mengevaluasi subset optimal saat heuristik. Ketika jumlah dimensi tinggi, waktu komputasi dan kompleksitas juga tinggi.

Misalnya, clustering adalah metode wakil dari metode wrapper. Namun, ia memiliki biaya komputasi yang tinggi. Metode wrapper

juga termasuk algoritma seleksi sekuensial dan algoritma pencarian heuristik [76]. Pendekatan heuristik banyak digunakan adalah

algoritma terutama evolusi, termasuk Particle Swarm Optimization (PSO), Ant Colony Optimization (ACO), Algoritma Genetika (GAs)

dan lain-lain [77]. Penelitian terbaru telah menggunakan tertimbang A * untuk optimalisasi seleksi fitur tanpa pengawasan [78, 79].

Berbeda dengan metode wrapper, metode filter yang menggunakan beberapa langkah-langkah tidak langsung lainnya. Contoh

termasuk metode peringkat dan metode pencarian ruang [73]. jenis metode menggunakan karakteristik umum, seperti jarak, yang

terutama digunakan untuk memilih sebagian besar dari subset fitur, kadang-kadang bahkan semua fitur. Filter metode yang umum

dan mudah untuk memperpanjang; contoh termasuk Maximum Variance, Score Laplacian, dan Fisher Score [80]. metode Hybrid
H

mengacu pada kombinasi optimal dari filter dan wrapper metode. Metode Hybrid menggabungkan kelebihan dari filter dan wrapper
A

metode dan telah menerima banyak perhatian sebagai metode seleksi fitur baru. Dalam metode hibrida, juga disebut metode
SK

sebagai ensemble, metode filter dapat dianggap sebagai langkah pre-processing; selanjutnya, metode wrapper diterapkan untuk

menyelesaikan tugas [76]. Berdasarkan pembahasan di atas, metode khusus ekstraksi fitur dan seleksi fitur dapat secara luas

diringkas seperti yang ditunjukkan pada


NA
A

Gambar 5.:
M
RI
TE
DI

Gambar. 5 metode tertentu pengurangan dimensi


3.3 Aplikasi pengurangan dimensi
metode pengurangan dimensi telah digunakan dalam banyak aplikasi dunia nyata, termasuk pemilihan fitur atau
ekstraksi fitur sendiri dan kombinasi seleksi fitur dan fitur
DITERIMA NASKAH

ekstraksi. Semua jenis metode pengurangan dimensi tradisional dan ditingkatkan dikombinasikan dengan metode pembelajaran mesin

canggih menghasilkan efek yang diinginkan.

Loderer [81] et al. mengusulkan strategi pelatihan yang menggabungkan PCA, Pola lokal Binary (LBP) dan algoritma

pengelompokan seperti k-sarana untuk memilih fitur terlihat secara otomatis untuk Face Recognition. Hasil klasifikasi untuk

classifier SVM mengungkapkan keseimbangan antara penyimpanan dan akurasi. Dalam klasifikasi citra, Pighetti [82] et al.

menganggap bahwa SVM sangat efektif dan digunakan secara luas, sehingga kerangka kerja baru yang memilih sampel

yang efektif paling sedikit untuk SVM dalam klasifikasi halus disajikan. Algoritma Genetik Multi-Objective (MOGA)

digunakan untuk memilih dan mengoptimalkan sampel efektif untuk SVM, di mana Lokalitas Sensitive Hashing (LSH)

digunakan untuk memperbaiki parameter dalam prosesi MOGA. Percobaan menunjukkan bahwa metode mencapai

state-of-the-art hasil. Selain itu, Peng [74] et al.

- norma (0 < ≤ 1) untuk seleksi fitur. Kinerja pada SVM classifier linear untuk klasifikasi multi-kelas ditingkatkan. Untuk
mengembangkan algoritma penurut dan mengeksploitasi kriteria teoritis seleksi fitur, metode baru yang menggabungkan

informasi timbal balik dan label kelas diusulkan dalam [83]. Dengan mengontrol kriteria metode seleksi fitur penurut,

kompleksitas komputasi dapat dikurangi hingga dua lipat. Selanjutnya, kedua akurasi klasifikasi dan kecepatan yang unggul

daripada negara-of-art baseline. Omara [84] et al. disajikan metode ekstraksi fitur geometris khusus untuk pengakuan telinga.

Chen [85] et al. Dianggap clustering dan kelompok-sparsity regularisasi untuk seleksi fitur dan kemudian mengusulkan

multi-task fitur bersama kerangka seleksi berbasis pengelompokan untuk prediksi atribut semantik dalam pembelajaran

multi-task. Chen [55] et al. seleksi terpadu fitur dan pemodelan, membuang fitur acuh tak acuh dan buruk, dengan konstruksi

simultan aturan kabur. Oleh karena itu, model bukanlah sistem yang terpisah dan dapat memperoleh satu set kecil fitur.

Sebuah metode ekstraksi fitur baru, Orthogonal Least Squares Regression (OLSR), disajikan dalam [86]. model konstruksi
H

LSR berdasarkan kendala orthogonal sehingga informasi diskriminatif dapat diperoleh. Akurasi pengenalan untuk UCI, wajah
A

dan data tapak menunjukkan bahwa fitur diekstrak dari model yang representatif. visi komputer saat ini bidang penelitian yang
SK

sangat aktif. Gao [87] et al. disajikan metode baru skala besar ekstraksi data gambar, Centered Konvolusional Dibatasi

Boltzmann Mesin (CCRBM), untuk pengakuan adegan. model menambahkan faktor-faktor yang berpusat untuk meningkatkan

Konvolusional Dibatasi Boltzmann Mesin (CRBM) sehingga stabilitas model yang ditingkatkan. Unit terlihat dan hidden unit
NA

saling mempengaruhi dan mengoptimalkan terus menerus. Menggunakan metode pelatihan lapisan-bijaksana serakah,

kemampuan generatif model membaik. Percobaan yang luas pada data citra skala besar menunjukkan efektivitas metode ini

di scene recognition. Dalam RNN, negara-negara bagian dalam transformasi sangat kompleks. Løkse [88] et al. menerapkan
A

teknik pengurangan dimensi di setiap jaringan negara untuk mendapatkan kinerja yang lebih baik. Sebelum nilai keadaan
M

batin ditransmisikan ke lapisan berikutnya, regularisasi kendala PCA dan kPCA disesuaikan pada negara-negara ini dalam.

Model ditingkatkan telah meningkatkan kemampuan generalisasi dan memperoleh kinerja yang lebih baik dalam eksperimen.
RI

Li [57] et al. dianggap sebagai aplikasi yang luas dari LDA dalam pengurangan dimensi dan kekurangan, seperti aplikasi yang
TE

dibatasi untuk distribusi Gaussian dan sejumlah fitur diekstrak menjadi beberapa. The nonparametrik Margin proyeksi

(MNMP) Model maksimum untuk ekstraksi fitur diusulkan. Selain itu, dalam kelas dan antara kelas beraikan digunakan untuk

mendapatkan ruang bagian diskriminatif. Percobaan menunjukkan efisiensi metode. Dalam pembelajaran multi-label, data
DI

sering memiliki fitur berlebihan dan berisik dari dimensi tinggi karena ada lebih dari satu label yang terkait dengan satu contoh

[89]. Jian [90] et al. disajikan kerangka seleksi fitur multi-label informasi untuk meningkatkan efektivitas dan efisiensi
DITERIMA NASKAH

klasifikasi. The dimensi tinggi multi-berlabel ruang fitur diurai menjadi ruang rendah-dimensi sesuai dengan ide Latent Semantic

Indexing. Kemudian, fitur lebih lanjut seleksi disesuaikan, dan aturan Armijo digunakan untuk optimasi. seleksi fitur memilih

beberapa fitur atas membentuk data pemetaan dari ruang dimensi tinggi asli, dalam rangka untuk menghapus fitur bising sebagai

lebih mungkin, Xu [91] ditingkatkan LDA untuk mengoptimalkan kerangka ekstraksi fitur multi-label. Kerangka baru didorong dari

dua metode LDA multi-label ada. Fitur didapatkan LDA akan lebih ditimbang dengan mempertimbangkan baik fitur dan label

informasi. Selain itu, bobot mendapat melalui memaksimalkan kriteria kemerdekaan Hilbert-Schmidt membuat ekstraksi fitur

multi-label yang lebih memadai dan efektif. Angelo [92] et al. dibuktikan bahwa metode ekstraksi fitur yang efektif diterapkan

dalam metode soft computing adalah kunci untuk cacat struktur aerospace dalam percobaan. Tao [17] et al. memanfaatkan PSO

untuk mengoptimalkan parameter dalam tahap ekstraksi fitur pada set sampel kecil. Berikutnya, sesuai dengan tingkat keputusan,

metode ekstraksi fitur yang berbeda yang dibangun untuk meningkatkan akurasi klasifikasi. Dalam [93], para peneliti

membuktikan bahwa metode tradisional yang meningkatkan diskriminasi antar-kelas secara maksimal dalam pengurangan

dimensi akan menghasilkan overfitting, terutama untuk data dimensi tinggi. Akibatnya, metode baru yang memecahkan masalah

overfitting, bernama lembut diskriminan Peta (SDM), diusulkan. Perbandingan eksperimental dengan PCA dan LDA menunjukkan

bahwa metode ini menghasilkan kinerja yang unggul. Wei [94] et al. disebutkan bahwa daerah V4 visual dalam mekanisme saraf

yang bertanggung jawab untuk bentuk pengakuan untuk penglihatan. Oleh karena itu, mereka membangun sebuah jaringan saraf

V4 untuk tugas-tugas visi berdasarkan ekstraksi fitur bentuk. Lapisan tingkat rendah memperoleh orientasi dan fitur tepi.

Kemudian, fitur sekitar poin penting dikodekan ke dalam lapisan RBM untuk menghasilkan representasi dari bentuk. Bentuk

representasi ini dan distribusi yang sesuai mereka akhirnya digunakan untuk pengenalan obyek. Di bidang kedokteran klinis, ada

banyak penelitian tentang pengurangan dimensi [18, 54]. Mi [76] et al. mengusulkan algoritma wrapper yang kuat untuk prediksi

hasil pengobatan tumor menggunakan dataset kecil dan memperoleh akurasi yang menjanjikan. Penelitian yang dipresentasikan

di [54] menunjukkan bahwa ketika jumlah sampel cukup besar, metode ekstraksi fitur berperforma lebih baik dibandingkan
H

metode seleksi fitur. Fitur metode seleksi tertanam adalah pilihan yang baik untuk set data kecil. Dalam masalah pengenalan
A

wajah menantang, Wang [19] et al. disajikan sebuah metode pembelajaran ensemble dengan random sampling vektor fitur ruang
SK

bagian dan parameter optimal untuk mendapatkan akurasi yang lebih tinggi. Dimensi tinggi dari sampel pertama dikurangi melalui

PCA. Kemudian, subruang vektor fitur diperoleh dengan menggunakan metode LDA. Melalui algoritma kombinasi dan beberapa

pengklasifikasi LDA, ketepatan pengakuan akan lebih baik. Thanh [95] et al. mengusulkan coding jarang online yang dinamis fitur
NA

mekanisme seleksi untuk bidang robotika berdasarkan penguatan belajar di ruang dimensi tinggi lingkungan nyata-dunia. Dalam

antarmuka otak-komputer (BCI) lapangan, Luo [96] et al. disajikan pendekatan seleksi fitur bernama dinamis seleksi fitur frekuensi

(DFFS) untuk memilih fitur yang paling berguna. Hutan acak (RF) algoritma kemudian digunakan untuk klasifikasi. Dalam [97],
A

ekstraksi fitur berdasarkan blok proyeksi diterapkan pada multi-unit rekaman, yaitu lonjakan menyortir, untuk mengekstrak
M

informasi dari potensial aksi ekstraseluler.


RI
TE
DI

4 Kombinasi dari pemilihan sampel dan pengurangan dimensi

Sampai saat ini, makalah ini telah mengkaji teori pemilihan sampel dan pengurangan dimensi secara detail, masing-masing. Kami

juga telah memperkenalkan sejumlah besar metode ini dikombinasikan dengan mesin belajar secara terpisah. Untuk semua jenis

pertanyaan khusus, seperti klasifikasi dan prediksi, baik pemilihan sampel atau pengurangan fitur saja yang digunakan dalam kebanyakan

kasus. Namun, baru-baru ini, banyak


DITERIMA NASKAH

peneliti telah dikombinasikan pemilihan sampel dengan pengurangan dimensi untuk mendapatkan solusi optimal yang lebih baik. Pada

bagian ini, kami mengumpulkan berbagai metode dan aplikasi yang sekering pemilihan sampel dan pengurangan dimensi baik sopan santun

berurutan atau simultan.

4.1 kombinasi berurutan


Dalam klasifikasi teks, Pang [98] et al. mengusulkan sebuah model baru yang menggabungkan pemilihan sampel dan fitur

seleksi berdasarkan [27]. sampel suara yang dipilih sesuai dengan nilai keterwakilan. Kemudian, fitur metode penyesuaian berat

yang digunakan sesuai dengan distribusi sampel untuk lebih memilih fitur diskriminatif untuk classifier. Hasil eksperimen pada SVM

menunjukkan bahwa model ini dapat membuang banyak sampel yang tidak relevan secara efektif dan mendapatkan kinerja

klasifikasi yang lebih baik. Thung [99] et al. seleksi dipekerjakan fitur dan sampel seleksi berurutan pada multi-modalitas data yang

tidak lengkap [100] oleh data yang mengelompokkan dan pembelajaran multi-task. Pertama, matriks data tidak lengkap

dikelompokkan ke dalam beberapa submatriks tumpang tindih. Kemudian, proses seleksi fitur ini dilakukan dengan menggunakan

regresi jarang multi-task untuk menghapus fitur berlebihan dan berisik. Berikutnya, kerangka memilih sampel yang representatif

menggunakan algoritma pembelajaran multi-task. Kerangka kerja ini menunjukkan perbaikan baik dari segi akurasi dan kecepatan

klasifikasi. Xia [101] et al. dianggap dua masalah utama dalam domain adaptasi, pelabelan dan contoh adaptasi, untuk menyajikan

suatu kerangka komprehensif bernama fitur ensemble ditambah pemilihan sampel (SS-FE). model melatih Naïve Bayes (NB)

classifier pertama dengan ekstraksi fitur, dan kemudian metode pemilihan sampel berdasarkan PCA (PCA-SS) diadopsi. Efek dari

ekstraksi fitur dan PCA-SS keduanya baik, tapi SS-FE menunjukkan kinerja yang lebih baik dalam perbandingan eksperimental.

Xuan [29] et al. disajikan metode pemilihan sampel yang efektif pada pra-miRNA (miSampleSelect), yang didasarkan pada dua

tahap clustering dan seleksi fitur. Training set pertama berkerumun menurut kesamaan batang pra-miRNAs. Kemudian, 27 fitur

diskriminatif dipilih dari seluruh ensemble dari 48 fitur untuk setiap sampel. Langkah ketiga mengimplementasikan algoritma

pengelompokan lain, yang didasarkan pada distribusi sampel, dan sampel yang paling efektif yang dipilih sesuai kepadatan. Metode
H

miSampleSelect dapat mengatasi masalah yang disebabkan oleh ketidakseimbangan sampel pelatihan oleh classifier SVM. Neagoe
A

[102] et al. diterapkan ACO untuk pengakuan citra ruang. Seleksi Band ACO (ACO-BS) pertama kali digunakan untuk mengurangi
SK

dimensi dengan menciptakan band-band dari gambar multispektral. Kemudian, ACO Pelatihan Label Pemurnian (ACO-TLP)

digunakan untuk memilih pelatihan sampel bagian yang paling informatif. Model dapat mengurangi sebanyak sampel dan efektif

dalam percobaan. Selain aplikasi, ada juga analisis teoritis pemilihan sampel dan pengurangan dimensi. Untuk mendapatkan batas
NA

atas jumlah sampel untuk belajar PCA, Hanneke [103] memecahkan lama masalah terbuka dengan sepenuhnya menghilangkan

faktor logaritmik berdasarkan pada karya Hans Simon. Semua metode fusi yang disebutkan di atas adalah kombinasi berurutan

pengurangan dimensi dan pemilihan sampel. Kerangka kerja yang disebutkan di atas diilustrasikan dalam Gambar. 6 dan Gambar.
A

7.
M
RI
TE
DI

Gambar. 6 berurutan kombinasi framework1


DITERIMA NASKAH

Gambar. 7 berurutan kombinasi framework2

Gambar. 6 dan Gambar. 7 menunjukkan dua urutan yang berbeda dari penggunaan pengurangan dimensi dan pemilihan sampel.

Mereka juga mewakili dua jenis pengolahan jalan bagi data asli. Untuk cara pertama, model pertama menganggap distribusi data, kemudian

mengambil metode yang tepat untuk mendapatkan fitur untuk tugas berikut. Untuk Gambar. 7, model biasanya ekstrak fitur semua sampel,

maka fitur setiap sampel akan menggantikan sampel asli ke langkah pemilihan sampel berikutnya. Untuk data yang berbeda dan tugas yang

berbeda, peneliti akan memilih cara cocok seperti yang ditunjukkan sebelumnya.

4.2 kombinasi simultan


Ada juga studi yang menemukan bahwa subset dioptimalkan diperoleh dari dua proses independen pemilihan sampel dan

pengurangan dimensi mungkin bukan hasil optimal karena tumpang tindih dari dua sub-masalah [104, 1]. Sebuah kerangka kerja

baru yang menggabungkan pemilihan sampel dan pengurangan dimensi secara bersamaan ditunjukkan pada Gambar 8.:
A H
SK
NA

Gambar. 8 Kerangka simultan baru

Ng [1] et al. berpikir bahwa aspek yang paling penting dari pengembangan kombinasi pemilihan sampel dan pemilihan fitur adalah
A

untuk menemukan ukuran yang sama untuk mengevaluasi pentingnya setiap sehingga tidak akan ada tumpang tindih. Mereka
M

ditingkatkan metodologi baru, RBFNN-SM (Basis Function Radial


RI

Neural Networks-sensitivitas ukuran), yang dapat digunakan untuk memilih sampel hanya berguna atau melakukan
TE

Pemilihan sampel dan seleksi fitur bersama-sama (RBFMV-SM-SS). Sensitivitas ukuran (SM) digunakan secara luas dalam

jaringan saraf karena dapat mengevaluasi fitur dan sampel dengan cara yang sama. Di sisi lain, RBF mudah untuk memahami dan

menggunakan. Dengan demikian, arsitektur ensemble memiliki keuntungan jelas. Selain itu, hasil eksperimen menunjukkan bahwa
DI

model dapat memilih beberapa fitur dan sampel untuk mendapatkan akurasi yang tinggi. Mohsenzadeh [105] et al. disajikan

struktur sendi disebut relevansi mesin fitur sampel (RSFM) untuk memilih sampel relevansi dan fitur secara bersamaan. Model ini

merupakan perluasan dari dasar mesin vektor relevansi (RVM), yang dapat menghasilkan himpunan jarang dari sampel pelatihan

asli, yaitu sampel relevansi. RSFM dapat memperoleh akurasi klasifikasi yang lebih tinggi daripada RVM klasik karena dapat

memperoleh vektor fitur relevansi jarang dan sampel relevansi secara bersamaan. Peningkatan sparsity dapat menurunkan

kompleksitas dan menghindari overfitting dari model sehingga model tersebut lebih efisien. Peningkatan algoritma memiliki lebih

baik
DITERIMA NASKAH

kemampuan generalisasi dan menghilangkan fitur berisik dan tidak relevan secara efektif, tetapi memiliki kelemahan bahwa model hanya dapat memperoleh

konvergensi lokal. Oleh karena itu, Adeli [104] et al. mengusulkan struktur pemilihan fitur-sampel gabungan (JFSS) yang menggunakan model regresi linear

jarang untuk menghapus sampel berlebihan dan fitur yang tidak relevan secara bersamaan. JFSS mengadopsi masalah optimasi tunggal bukan kemungkinan

maksimalisasi marjinal untuk mengubah masalah masalah optimasi cembung sederhana. Dengan demikian, formulasi lebih mudah untuk memecahkan

daripada RSFM. Selain itu, mengingat bahwa masih ada beberapa kebisingan acak setelah memilih fitur terbaik dan sampel, seluruh model memiliki proses

de-noising. Model ini diterapkan untuk diagnosis PD, dan hasilnya menunjukkan kehandalan dan akurasi yang baik. Berdasarkan kerugian dari RSFM,

Mohsenzadeh et al. juga mengusulkan model perbaikan yang disebut Incremental Relevansi Contoh-Fitur Machine (IRSFM) [75]. Varian baru mengubah

marjinal kemungkinan pendekatan maksimisasi yang mengoptimalkan pembangunan diinisialisasi model, menambahkan fungsi kernel langkah demi langkah

dan hanya menghitung parameter yang relevan dengan fitur saat ini dan sampel. Akibatnya, IRSFM dapat diterapkan untuk skala besar data lebih mudah dan

lebih efektif daripada RSFM. Untuk video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah

ruang dan waktu yang besar kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Varian baru mengubah marjinal kemungkinan

pendekatan maksimisasi yang mengoptimalkan pembangunan diinisialisasi model, menambahkan fungsi kernel langkah demi langkah dan hanya menghitung

parameter yang relevan dengan fitur saat ini dan sampel. Akibatnya, IRSFM dapat diterapkan untuk skala besar data lebih mudah dan lebih efektif daripada

RSFM. Untuk video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah ruang dan waktu

yang besar kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Varian baru mengubah marjinal kemungkinan pendekatan maksimisasi

yang mengoptimalkan pembangunan diinisialisasi model, menambahkan fungsi kernel langkah demi langkah dan hanya menghitung parameter yang relevan

dengan fitur saat ini dan sampel. Akibatnya, IRSFM dapat diterapkan untuk skala besar data lebih mudah dan lebih efektif daripada RSFM. Untuk video

surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah ruang dan waktu yang besar

kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Untuk video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah

besar video klip. Sebuah masalah serius adalah ruang dan waktu yang besar kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Untuk
H
video surveillance, tugas klasifikasi citra sering didasarkan pada sejumlah besar video klip. Sebuah masalah serius adalah ruang dan waktu yang besar

kompleksitas disebabkan oleh sampel skala besar dan fitur yang padat. Zhang [4] et al. disajikan pilihan fitur dan pemilihan sampel metode bersama untuk secara bersamaan menyelesaikan dua m
A

5 Diskusi dan kesimpulan


SK

Perkembangan cepat mesin belajar membuat kemajuan besar dari seperti sosial sebagai pengenalan wajah, diagnosis penyakit, pengenalan suara,

klasifikasi citra dan masalah nyata lainnya. Sampel seleksi dan pengurangan dimensi teknik yang sangat penting dalam analisis data skala besar, terutama di
NA

mesin belajar [7, 106]. Makalah ini secara singkat meninjau masalah yang disebabkan oleh akumulasi data skala besar. 'Skala besar' berarti bahwa kuantitas

dan dimensi dari sampel yang diperoleh menjadi semakin besar. Akibatnya, tidak relevan, berlebihan, tidak lengkap dan bising data yang lebih dengan atribut

ultrahigh dihasilkan. Dengan demikian, masalah seperti overfitting, kompleksitas komputasi tinggi dan kecepatan komputasi yang rendah menjadi lebih serius,
A

khususnya di bidang aktif pengolahan data citra. Dengan demikian, konsep dan situasi saat pemilihan sampel dan pengurangan dimensi diuraikan. Kontribusi
M

dari makalah ini adalah untuk merangkum berbagai jenis aplikasi pemilihan sampel dan pengurangan dimensi yang dikombinasikan dengan berbagai metode

pembelajaran mesin, seperti clustering, klasifikasi, set kasar, fuzzy set, soft computing, algoritma heuristik, dll, yang memiliki dikembangkan dalam beberapa
RI

tahun terakhir. Di antara metode ini, kita fokus pada CNN pada khususnya. Perkembangan CNN telah memungkinkan kemajuan besar untuk berbagai bidang
TE

penelitian aktif seperti pengenalan gambar dan klasifikasi. Mekanisme pelatihan lengkap, yang menggabungkan ekstraksi fitur dan seleksi fitur, telah

menghasilkan state-of-the-art hasil. Dari tulisan ini, jelas bahwa kedua teknik ini telah diterapkan secara luas, tetapi belum ada metode universal untuk

pemilihan sampel dan pengurangan dimensi yang dapat diterapkan untuk semua masalah. Setiap masalah khusus biasanya mengadopsi salah satu metode
DI

unik untuk membuat kemajuan relatif terhadap pekerjaan sebelumnya. Menurut literatur yang ada dirangkum dalam makalah ini, kami menemukan bahwa

pemilihan sampel dan Setiap masalah khusus biasanya mengadopsi salah satu metode unik untuk membuat kemajuan relatif terhadap pekerjaan sebelumnya.

Menurut literatur yang ada dirangkum dalam makalah ini, kami menemukan bahwa pemilihan sampel dan Setiap masalah khusus biasanya mengadopsi salah

satu metode unik untuk membuat kemajuan relatif terhadap pekerjaan sebelumnya. Menurut literatur yang ada dirangkum dalam makalah ini, kami

menemukan bahwa pemilihan sampel dan


DITERIMA NASKAH

metode pengurangan dimensi baik menggunakan hanya satu dari teknik ini atau menggunakan semua berurutan atau secara simultan. Menghadapi

masalah yang menantang yang disebabkan oleh data yang berskala besar, adalah mungkin bahwa mekanisme umum yang sekering metode pemilihan

sampel dengan metode pengurangan dimensi, seperti yang diilustrasikan Gambar. 9 dan Gambar. 10, akan mendapatkan kinerja yang lebih baik.

Gambar. 9 Mekanisme kombinasi baru 1

Gambar. 10 Mekanisme kombinasi baru 2

Kami memiliki ide bahwa apakah struktur yang menggabungkan dua metode pengurangan dimensi, ekstraksi fitur dan seleksi
H

fitur, seperti CNN dapat digunakan dalam pengolahan data dengan pemilihan sampel pada waktu yang sama. Gambar. 9 dan Gambar.
A

10 menunjukkan mekanisme sekuensial dan simultan, masing-masing.


SK

Dari kesimpulan dari tulisan ini, kita dapat melihat bahwa data untuk pembelajaran mesin tradisional berbeda dari CNN. Di CNN,

model biasanya proses data gambar secara langsung, yaitu jaringan akan mengekstrak fitur yang berguna dengan sendirinya, dan sampel
NA

hampir sama lebih mungkin. Namun dalam metode pembelajaran mesin tradisional, bidang aplikasi yang liar dan metode pengolahan data

seperti pemilihan sampel dan pengurangan dimensi yang sering digunakan. Aplikasi metode pembelajaran mesin dalam makalah ini berisi

beragam macam bidang, seperti kedokteran, biologi, pertanian, aerospace, lalu lintas dan sebagainya. Dan sebagian besar tujuan yang
A

untuk mengklasifikasikan dan memprediksi. Dalam beberapa tahun terakhir, multi-task dan klasifikasi multi-label mendapatkan populer.
M

Seperti disebut sebelumnya, Pemilihan sampel dan pengurangan dimensi memainkan peran penting untuk aplikasi yang sukses. Dalam

setiap bidang studi, cara pemilihan sampel dan pengurangan dimensi yang jauh berbeda karena bentuk data yang berbeda, tugas yang
RI

berbeda dan lingkungan simulasi yang berbeda. Itu sebabnya kami kumpulkan begitu banyak metode dengan segala macam bentuk
TE

dalam makalah ini.


DI

Pemilihan sampel bisa menghapus data yang berlebihan dan membuat training set seimbang, sehingga dapat melatih classifier

lebih kuat. Perlu dicatat bahwa dengan akumulasi data yang lebih dan lebih, metode pemilihan sampel tanpa pengawasan dan metode

bias seleksi sampel mendapatkan penting secara bertahap. Adapun seleksi fitur dan ekstraksi fitur, studi lebih dan lebih menjaga titik

pada bahwa bagaimana untuk mendapatkan fitur mempertimbangkan hubungan dengan tugas saat ini. Akhirnya, kertas membuat

perhatian pada kombinasi kedua teknik penting dalam pembelajaran mesin.

Dalam pengolahan data saat ini skala besar, pemilihan sampel dan pengurangan dimensi keduanya langkah yang

diperlukan. Karena granularities yang berbeda dari representasi data, yang paling dipilih
DITERIMA NASKAH

Agar seleksi sampel pertama, dan kemudian pengurangan dimensi. Pemilihan sampel sering berfokus pada jumlah dan distribusi

seluruh set data asli. Sebaliknya, pengurangan dimensi akan memproses sampel ke dalam representasi yang lebih dalam sebagai

fitur atau dimensi. Dalam rangka untuk memahami data dasarnya, ada beberapa penelitian menemukan cara untuk mengadopsi

pengurangan dimensi dan pemilihan sampel pada waktu yang sama. Dengan cara ini, tidak hanya dapat mengurangi waktu lebih

lanjut, tetapi juga memilih data yang lebih baik dan fitur untuk tugas. Melalui kesimpulan di atas, kita tahu bahwa pengurangan

dimensi meliputi seleksi fitur dan ekstraksi fitur, tapi hampir semua aplikasi hanya menggunakan salah satu dari mereka. seleksi

fitur dan ekstraksi fitur adalah dua cara yang berbeda untuk mendapatkan fitur data, tetapi mereka dapat saling membantu. Sebagai

contoh, kita menganggap bahwa apakah fitur didapatkan ekstraksi fitur semua efektif? Dan bisa kita lanjut memilih fitur diekstrak

melalui metode seleksi fitur? Dan selanjutnya, bagaimana menggabungkan pemilihan sampel, ekstraksi fitur dan pemilihan fitur

mungkin arah baru untuk pengolahan data skala besar.

Ucapan Terima Kasih

Karya ini didukung oleh Dana Penelitian Fundamental untuk Universitas Central [No. 2015XKMS08].

Referensi
[1] WWY Ng, DS Yeung, I. Cloete, pemilihan sampel Masukan untuk masalah klasifikasi jaringan saraf RBF menggunakan

sensitivitas ukuran, Sistem, Man dan Sibernetika, 2003. IEEE International Conference on 2003, 3 (2003) 2593-2598,

https: // doi .org / 10,1109 / ICSMC.2003.1244274. [2] AL Blum, P. Langley, Pemilihan fitur yang relevan dan contoh
H

dalam pembelajaran mesin, artif INTELL, 97 (1-2) (1997) 245-271, https://doi.org/10.1016/S0004-3702 (97) 00.063 -5.
A

[3] Y. Zhai, YS Ong, I. Tsang, Membuat Triliun Korelasi Kelayakan di Fitur Pengelompokan dan Seleksi, Transaksi IEEE
SK

pada Pola Analisis & Mesin Intelijen, 38 (12) (2016) 2472-2486, https://doi.org/10.1109 /TPAMI.2016.2533384. [4] M.

Zhang, R. Dia, D. Cao, Z. Sun, T. Tan, Fitur Simultan dan Pengurangan Contoh untuk Gambar-Set Klasifikasi, AAAI

2016 1401-1407. [5] JV Hulse, kualitas data dalam data mining dan mesin belajar [M]. Florida Atlantic University,
NA
A

2007.
M

[6] XZ Wang, LC Dong, JH Yan, Maksimum seleksi berbasis ambiguitas sampel dalam fuzzy induksi pohon keputusan,

Transaksi IEEE pada Knowledge & Data Engineering, 24 (8) (1997) 1491-1505, https://doi.org/10.1109/ TKDE.2011.67.
RI

[7] C. Garc A-Osorio, D. Haro-Garc, A. Aida, A-Pedrajas.N. Garc, Demokrat misalnya seleksi: Sebuah kompleksitas
TE

contoh algoritma seleksi linear berdasarkan konsep classifier ensemble, Artificial Intelligence, 174 (5-6) (2010) 410-441,

https://doi.org/10.1016/j.artint.2010.01. 001. [8] PEHart, kental aturan tetangga terdekat, IEEE T INFORM TEORI, 14 (3)

(1968) 515-516, https://doi.org/10.1109/TIT.1968.1054155. [9] DW Aha, D. Kibler, MK Albert, Instance berbasis algoritma
DI

pembelajaran. Machine Learning, 6 (1) (1991) 37-66, https://doi.org/10.1007/BF00153759. [10] fungsi objektif berbasis

Informasi DJC Mackay, untuk seleksi data aktif, SYARAF COMPUT, 4 (4) (1992) 590-604,

https://doi.org/10.1162/neco.1992.4.4.590. [11] H. Xu, H. Zha, RC Li, MA Davenport, Active berjenis belajar melalui

gershgorin lingkaran pemilihan sampel dipandu, Dua puluh Kesembilan AAAI Konferensi Artificial Intelligence, AAAI

Press, 2015,
DITERIMA NASKAH

pp. 3108-3114. [12] A. Moayedikia, KL Ong, YL Boo, WG Yeoh, R. Jense, seleksi Fitur untuk data kelas tidak
seimbang tinggi dimensi menggunakan pencarian harmoni, Aplikasi Teknik Artificial Intelligence, 57 (2017) 38-49, https://doi.org/10.1016/j.engappa
[13] COS Sorzano, J. Vargas, AP Montano, Sebuah survei teknik pengurangan dimensi, Ilmu Komputer, 2014. [14] F.
Wang, J. Sun, Survey jarak metrik pembelajaran dan pengurangan dimensi dalam data mining, Kluwer Academic
Publishers, 2015. [15] H. Xie, J. Li, H. Xue, Sebuah survei teknik pengurangan dimensi berdasarkan proyeksi acak,
2017. [16] M. Arellano, S. Bonhomme, Pemilihan Sampel di Quantile Regresi: A Survey, Kertas Kerja,

2017.

[17] ekstraksi fitur berbasis PSO CG Tao, LL Zhao, XH Su, PJ Ma, untuk dimensi tinggi sampel kecil, IEEE Konferensi
Internasional Kelima Advanced Komputasi Intelijen, 8267 (2012) 229-233, https://doi.org/10.1109/
ICACI.2012.6463157. [18] J. Krawczuk, T. Lukaszuk, Masalah seleksi fitur bias dalam kaitannya dengan gen
dimensi tinggi
data, Buatan Intelijen di Medicine, 66 (2016) 63-71,

https://doi.org/10.1016/j.artmed.2015.11.001. [19] X. Wang, X. Tang, Random Sampling untuk Subruang Face

Recognition, International Journal of Computer Vision, 70 (1) (2006) 91-104, https://doi.org/10.1007/s11263-006-8098-z.

[20] N. Zhang, T. Xiao, Algoritma pemilihan sampel berdasarkan entropi maksimum dan kontribusi. Konferensi

Internasional tentang Machine Learning dan Sibernetika, ICMLC 2010, Qingdao, China, 11-14 Juli 2010, Prosiding, 1
H

(2010) 397-402, https://doi.org/10.1109/ICMLC.2010.5581031. [21] E. Elhamifar, G. Sapiro, SS Sastry, perbedaan


A

berbasis seleksi bagian jarang. transaksi IEEE pada analisis pola dan kecerdasan mesin, 38 (11) (2016) 2182-2197,
SK

https://doi.org/10.1109/TPAMI.2015.2511748 .
NA

[22] YH Zhou, L. Huang, XI Mao-panjang, Quantum berperilaku partikel algoritma optimasi segerombolan dengan
pilihan acak optimal [J] individu. Journal of Aplikasi Komputer, 4 (6) (2009) 189-193. [23] W. Sun, AP Lin, HS Yu,
QK Liang, GH Wu, All-dimensi berdasarkan lingkungan optimasi partikel swarm dengan tetangga yang dipilih
A

secara acak [J]. Ilmu An International Journal, 405 (C) (2017) 141-156, https://doi.org/10.1016/j.ins.2017.04.007.
M

[24] W. Guicquero, P. Vandergheynst, T. Laforest, A. Dupret, Pada pixel pilihan acak adaptif untuk penginderaan
tekan [C] // Signal dan Informasi Pengolahan. IEEE, 234 (2015) 701-708.
RI

https://doi.org/10.1109/GlobalSIP.2014.7032211 [25] B. Du, L. Zhang, acak-Seleksi Berbasis Anomali Detector


TE

untuk Hyperspectral Citra [J]. Transaksi IEEE pada Geoscience & Remote Sensing, 49 (5)
DI

(2011) 1578-1589,
https://doi.org/10.1109/TGRS.2010.2081677 [26] BQ Gong, K. Grauman, F. Sha, Menghubungkan titik-titik dengan

landmark: diskriminatif belajar fitur domain-invarian untuk adaptasi domain tanpa pengawasan, JMLR W & CP, 28 (1) (2013)

222-

230.

[27] YX Liao, XZ Pan, Sebuah Metode Baru Seleksi Sampel Pelatihan Klasifikasi Teks, Workshop Internasional
tentang Pendidikan Teknologi & Ilmu Komputer, 1 (2010) 211-214, https://doi.org/10.1109/ETCS.2010.621.
DITERIMA NASKAH

[28] M. Chellasamy, PAT Ferre, M. Humlekrog Greve, pemilihan sampel pelatihan otomatis untuk pendekatan klasifikasi

tanaman berbasis multi-bukti, Arsip Internasional dari Fotogrametri Remote Sensing & S, XL-7 (7) (2014) 63-69, https :

//doi.org/10.5194/isprsarchives-XL-7-63-2014. [29] P. Xuan, MZ Guo, LL Shi, J. Wang, XY Liu, WB Li, YP Han,

Dua-tahap seleksi sampel yang efektif pengelompokan berdasarkan klasifikasi dari pra-miRNAs, IEEE International

Conference on Bioinformatika

dan biomedis, 10 (2010) 549-552,

https://doi.org/10.1109/BIBM.2010.5706626. [30] X. Li, M. Fang, JJ Zhang, JQ Wu, Pemilihan sampel untuk adaptasi domain

visual yang melalui coding jarang,

Sinyal Pengolahan Gambar Komunikasi, 44 (2016) 92-100,

https://doi.org/10.1016/j.image.2016.03.009. [31] JT Xia, MY Dia, YY Wang, Y. Feng, Algoritma pelatihan cepat untuk

mesin dukungan vektor melalui seleksi batas sampel, Konferensi Internasional tentang Neural Networks dan Signal

Processing, 1 (2004) 20-22, https://doi.org /10.1109/ICNNSP.2003.1279203. [32] XT Niu, Fcm-lssvm berdasarkan seleksi

sampel pelatihan, Metalurgi & Industri Pertambangan, (9) (2015) 751. [33] JH Zhai, C. Li. T. Li, Pemilihan Sampel

Berdasarkan KL Divergence untuk Efektif Pelatihan SVM, IEEE SYS MAN CYBERN, 8215 (2013) 4837-4842,

https://doi.org/10.1109/SMC.2013.823. [34] HW Hao, RR Jiang, metode Pelatihan pemilihan sampel untuk jaringan saraf

berdasarkan tetangga terdekat

aturan, Acta Automatica Sinica, 33 (33) (2007) 1247-1251,

https://doi.org/10.1360/aas-007-1247 .

[35] DG Chen, X. Zhang, ECC Tsang, YP Yang, Pemilihan sampel dengan set kasar, Konferensi Internasional
H

pada Mesin pengetahuan dan Sibernetika, 1 (2010) 291-295,


A

https://doi.org/10.1109/ICMLC.2010.5581051. [36] E.
SK

Santiago-Ramirez, JA Gonzalez-Fraga, E. Gutierrez, O. Alvarez-Xochihua,


metodologi berbasis optimasi-untuk pelatihan pemilihan set untuk mensintesis filter korelasi komposit untuk pengenalan

wajah, Signal Processing Gambar Komunikasi, 43 (2016) 54-67, https://doi.org/10.1016/j.image.2016.02.002. [37] Y.


NA

Yang, Z. Ma, F. Nie, X. Chang, AG Hauptmann, Multi-Class Active Learning oleh Ketidakpastian Sampling dengan

keragaman Maksimalisasi, International Journal of Computer Vision, 113 (2) (2015) 113-127, https://doi.org/10.1007/s11263-014-0781-x.

[38] Y. Guo, L. Ma, F. Zhu, FJ Liu, Memilih Sampel Pelatihan dari Skala Besar Sampel-Penginderaan Jauh Menggunakan
A

Algoritma Pembelajaran Aktif, Computational Intelligence dan Sistem Cerdas. Springer Singapura, 575 (2015) 40-51,
M

https://doi.org/10.1007/978-981-10-0356-1_5. [39] WW Yuan, YK Han, DH Guan, SY Lee, YK Lee, Seleksi data Pelatihan

awal untuk Pembelajaran Aktif, Prosiding Konferensi Internasional ke-5 pada Manajemen Informasi Ubiquitous dan
RI

Komunikasi 2011, https://doi.org/10.1145/1968613.1968619. [40] RJ Goudie, S. Mukherjee, A sampler Gibbs untuk belajar
TE

DAGs, Journal of Machine Learning Penelitian, 17 (30) (2016) 1-39. [41] JJ Heckman, Contoh bias seleksi sebagai

kesalahan spesifikasi, Econometrica, 47 (1979) 153-


DI

161, https://doi.org/10.2307/1912352. [42] B. Zadrozny, Belajar dan Mengevaluasi Classifiers bawah Pemilihan Sampel

Bias, Twenty-first Internasional

Konferensi di Mesin belajar, 114 (2004),

https://doi.org/10.1145/1015330.1015425. [43] D. Wu, DZ Lin, L. Yao, WJ Zhang, Mengoreksi Contoh Seleksi Bias

untuk Klasifikasi Gambar,


DITERIMA NASKAH

3 Konferensi Internasional tentang Sistem Cerdas dan Pengetahuan Teknik, (2008) 1214-1220, https://doi.org/10.1109/ISKE.2008.4731115
.
[44] B. Schölkopf, J. Platt, T. Hofmann, Campuran Regresi untuk Pergeseran kovariat [C] // Konferensi Internasional

tentang Neural Sistem Informasi Pengolahan. MIT Press, (2006) 1337-1344. [45] AT Smith, C. Elkan, Membuat

pengklasifikasi generatif kuat untuk bias seleksi [C] // ACM SIGKDD Konferensi Internasional tentang Knowledge

Discovery dan Data Mining. ACM, (2007) 657-666, https://doi.org/10.1145/1281192.1281263. [46] R. Romero, EL

Iglesias, L. Borrajo, Bangunan Biomedis Classifiers Teks di bawah Sample Selection Bias [M] // Simposium

Internasional Computing Distributed dan Kecerdasan Buatan. Springer Berlin Heidelberg, 91 (2011) 11-18. [47] N.

Krautenbacher, FJ Theis, C. Fuchs, Mengoreksi Classifiers Sampel Bias Seleksi di Dua Tahap Studi Kasus-Kontrol

[J]. Komputasi & Matematika Metode dalam Kedokteran, 2017, https://doi.org/10.1155/2017/7847531. [48] M. Tan, IW

Tsang, L. Wang, Menuju seleksi fitur dimensi ultrahigh untuk data besar, Journal of Machine Learning Penelitian, 15

(1) (2014) 1371-1429. [49] KQ Weinberger, LK Saul, Pengantar pengurangan dimensi nonlinear dengan varians

maksimum berlangsung, Konferensi Nasional Artificial Intelligence. AAAI Press, 2 (2006) 1683-1686. [50] R. Kohavi,

GH John, Wrappers untuk seleksi fitur bagian, Artificial Intelligence, 97 (0) (1997) 273-324, https://doi.org/10.1016/S0004-3702

(97) 00043-X. [51] N. Armanfard, JP Reilly, M. Komeili, Seleksi Fitur lokal untuk Klasifikasi Data, Transaksi IEEE pada

Pola Analisis dan Mesin Intelijen, 38 (6) (2016) 1217-1227, https://doi.org/10.1109/TPAMI. 2.015,2478471. [52] D.

Ramyachitra, M. Sofia, P. Manikandan, Interval-nilai berdasarkan partikel swarm algoritma optimasi untuk

kanker-pemilihan jenis gen spesifik dan klasifikasi sampel. Genomics Data, 5 (2015) 46-50,

https://doi.org/10.1016/j.gdata.2015.04.027. [53] W. Pindah, A. Seman, S. Nordin, MSM Said, Ulasan teknik

pengurangan dimensi menggunakan algoritma pengelompokan dalam rekonstruksi gen regulasi jaringan, Konferensi

Internasional tentang Komputer, Komunikasi, dan Pengendalian Teknologi, 5 (2015) 1031-1034, https :
H

//doi.org/10.1109/I4CT.2015.7219560. [54] S. Pölsterl, S. Conjeti, N. Navab, A. Katouzian, analisis kelangsungan


A

hidup untuk data medis yang tinggi-dimensi, heterogen: Menjelajahi ekstraksi fitur sebagai alternatif untuk fitur seleksi,
SK

Artificial Intelligence di Medicine, 72 (2016) 1-11, https://doi.org/10.1016/j.artmed.2016.07.004. [55] YC Chen, NR Pal,

JIKA Chung, Mekanisme terpadu untuk seleksi fitur dan ekstraksi aturan kabur
NA
A
M
RI
TE

untuk klasifikasi, IEEE T FUZZY SYST, 20 (4) (2012) 683-698,

https://doi.org/10.1109/TFUZZ.2011.2181852. [56] N. Chumerin, MM Van Hulle, Perbandingan Dua Fitur Metode


DI

Ekstraksi Berdasarkan Maksimalisasi Reksa Informasi, Machine Learning untuk Signal Processing, 2006.
Prosiding
2006, Lokakarya Masyarakat IEEE Signal Processing pada 2006; 343-348,

https://doi.org/10.1109/MLSP.2006.275572. [57] B. Li, J. Du, XP Zhang, Fitur ekstraksi menggunakan maksimum

nonparametrik marjin proyeksi. NEUROCOMPUTING, 188 (2016) 225-232, https://doi.org/10.1016/j.neucom.2014.11.105 .

[58] C. Lee, DA Landgrebe, Fitur Ekstraksi Berdasarkan Batas Keputusan [J]. Pola Analisis & Mesin
Intelijen Transaksi IEEE di, 15 (4) (1993) 388-400,
DITERIMA NASKAH

https://doi.org/10.1016/j.patcog.2017.12.010. [59] D. Araujo, AD Neto, A. Martins, J. Melo, studi banding pada


teknik reduksi dimensi untuk analisis klaster data microarray. HIST EUR IDEA, 11 (1) (2011) 1835-1842,
https://doi.org/10.1109/IJCNN.2011.6033447. [60] SAYA T

Jolliffe, analisis komponen utama. Springer Berlin, 87 (100) (1986) 41-64, https://doi.org/10.1007/b98835.
[61] AM Martínez, AC Kak, Pca dibandingkan lda, Pola Analisis & Mesin Intelijen IEEE Transaksi pada 2001; 23
(3-4): 228-233, https://doi.org/0.1109/34.908974. [62] VN Vapnik, Sifat teori belajar statistik, Neural Networks IEEE
Transaksi pada 1995; 10 (5): 988-999, https://doi.org/10.1007/978-1-4757-3264-1. [63] FW Young, RM Hamer,
Multidimensional skala: sejarah, teori, dan aplikasi, JR STAT SOC 37 (1) (1988). [64] JB Tenenbaum, VD Silva, JC
Langford, Kerangka geometrik global untuk dimensi nonlinear

pengurangan, Ilmu, 290 (5500) (2000) 2319-2323,

https://doi.org/10.1126/science.290.5500.2319. [65] Jihan, Khodr, Rafic, Younes, pengurangan Dimensi gambar


itt: A komparatif
review berdasarkan data-data buatan, lek CATATAN COMPUT SC, 2011 4 Kongres Internasional 2011; 4:

1875-1883, https://doi.org/10.1109/CISP.2011.6100531. [66] L. Zhang, T. Zhang, B. Du, D. Tao, J. Anda, Robust Manifold

Matrix Faktorisasi untuk Joint Clustering dan Fitur Ekstraksi, AAAI, (2017) 1662-1668. [67] J. Wangni, N. Chen, nonlinear

Ekstraksi Fitur dengan Max-Margin data Shifting, AAAI, (2016) 2208-2214. [68] J. Li, J. Zhao, K. Lu, Seleksi Fitur Joint

dan Struktur Pelestarian untuk Domain Adaptasi, IJCAI, (2016) 1697-1703. [69] Y. Lecun, L. Bottou, Y. Bengio, P.
H

Haffner, pembelajaran berbasis Gradient diterapkan untuk mendokumentasikan pengakuan, P IEEE, 86 (11) (1998)
A

2278-2324, https://doi.org/10.1109/5.726791 . [70] XX Niu, CY Suen, Sebuah novel hybrid cnn-svm classifier untuk
SK

mengenali tulisan tangan digit, POLA recogn, 45 (4) (2012) 1318-1325, https://doi.org/10.1016/j.patcog.2011.09.021. [71] A.

Barbu, Y. Dia, L. Ding, G. Gramajo, Seleksi Fitur dengan Anil untuk Big data Learning, ePrint arXiv,, 39 (2) (2014)

272-286. [72] F. Nie, W. Zhu, X. Li, seleksi fitur Unsupervised dengan optimasi grafik terstruktur, Thirtieth AAAI
NA

Konferensi Artificial Intelligence. AAAI Tekan 2016; 1302-1308. [73] H. Mhamdi, F. Mhamdi, Fitur Metode Seleksi Hayati

Knowledge Discovery dan Data Mining:


A
M
RI
TE

SEBUAH survei, INT WORKSHOP databas, (2014) 46-50,

https://doi.org/10.1109/DEXA.2014.26. [74] H. Peng, Y. Fan, Seleksi Fitur Berdasarkan Langsung sparsity

Optimization untuk Multi-Class Klasifikasi, IJCAI, (2016) 1918-1924. [75] Y. Mohsenzadeh, H. Sheikhzadeh, S. Nazari,
DI

Incremental mesin sampel-fitur relevansi: marjinal pendekatan kemungkinan maksimalisasi cepat untuk seleksi fitur

bersama dan klasifikasi, POLA recogn, 60 (2016) 835-848, https://doi.org /10.1016/j.patcog.2016.06.028. [76] H. Mi, C.

Petitjean, B. Dubray, P. Vera, R. Su, seleksi fitur Kuat untuk memprediksi tumor hasil pengobatan,

Buatan Intelijen di Medicine, 64 (3) (2015) 195-204,

https://doi.org/10.1016/j.artmed.2015.07.002. [77] N. Abd-Alsabour, Suatu Tinjauan pada


Seleksi Fitur Evolusioner, IEEE 2014;
DITERIMA NASKAH

https://doi.org/10.1109/EMS.2014.28. [78] H. Arai, K. Xu, C. Maung, H. Schweitzer, tertimbang A algoritma * untuk

seleksi fitur tanpa pengawasan dengan batas-batas dapat dibuktikan pada suboptimality, Thirtieth AAAI Konferensi

Artificial Intelligence. AAAI Tekan 2016; 4194-4195. [79] H. Arai, C. Maung, K. Xu, H. Schweitzer, Seleksi Fitur

Unsupervised oleh heuristik Cari dengan dapat dibuktikan Bounds pada Suboptimality, AAAI, (2016) 666-672. [80] CJC

Burges, pengurangan Dimensi: tur, Yayasan & Trends® di Machine Learning; 2 (4) (2010) 262-286,

https://doi.org/10.1561/2200000002. [81] M. Loderer, J. Pavlovicova, M. Feder, M. Oravec, reduksi dimensi data dalam

strategi pelatihan untuk sistem pengenalan wajah, Konferensi Internasional tentang Sistem, Sinyal dan Pengolahan Citra

2014; 263-266. [82] R. Pighetti, D. Pallez, F. Precioso, Meningkatkan SVM Pemilihan Sampel Pelatihan Menggunakan

Algoritma Evolusioner Multi-Objective dan LSH, COMPUT INTELL 2015 IEEE Symposium 2015;

https://doi.org/10.1109/SSCI.2015.197 [83] L. Lefakis, F. Fleuret, Seleksi Fitur Bersama Informatif Dibuat penurut oleh

Gaussian Modeling, Journal of Machine Learning Penelitian, 17 (182) (2016) 1-39. [84] I. Omara, F. Li, HZ Zhang, WM Zuo,

Sebuah metode ekstraksi fitur geometris baru untuk pengakuan telinga,

AHLI SYST APPL, 65 (2016) 127-135,

https://doi.org/10.1016/j.eswa.2016.08.035. [85] L. Chen, B. Li, Seleksi Fitur Joint Clustering Berbasis untuk Prediksi

Semantic Atribut, IJCAI, (2016) 3338-3344. [86] HF Zhao, Z. Wang, FP Nie, Orthogonal kuadrat regresi untuk ekstraksi

fitur. NEUROCOMPUTING, 216 (2016) 200-207, https://doi.org/10.1016/j.neucom.2016.07.037. [87] JY Gao, JF Yang,


H

GH Wang, MG Li, Sebuah metode ekstraksi fitur baru untuk pengenalan adegan berdasarkan convolutional dibatasi
A

mesin Boltzmann berpusat, NEUROCOMPUTING 11 (2) (2016) 14-19, https://doi.org/10.1016/ j.neucom.2016.06.055.


SK

[88] S. Løkse, FM Bianchi, R. Jenssen, Pelatihan Echo Negara Networks dengan Regularisasi Melalui Dimensi
NA

Pengurangan, kognitif Komputasi, 9 (3) (2017) 364-378,

https://doi.org/10.1007/s12559-017-9450-z .
A

[89] JH Liu, YJ Lin, Y. Kang, CX Wang, online multi-label Group Feature Selection [J]. Pengetahuan Berbasis Sistem,
M

2017, https://doi.org/10.1016/j.knosys.2017.12.008. [90] L. Jian, J. Li, K. Shu, H. Liu, Multi-label seleksi fitur informasi,

Konferensi Bersama Internasional tentang Artificial Intelligence, AAAI Tekan 2016; 1627-1633. [91] J. Xu, Kerangka
RI

analisis tertimbang linear diskriminan untuk ekstraksi fitur multi-label [J]. Neurocomputing, 275 (2017) 107-120, https://doi.org/10.1016/j.neucom.201
TE

[92] G. D'Angelo, S. Rampone, Fitur ekstraksi dan soft computing metode untuk struktur aerospace cacat
DI

klasifikasi, PENGUKURAN, 85 (2016) 192-209,

https://doi.org/10.1016/j.measurement.2016.02.027. [93] R. Liu, DF Gillies, Overfitting di ekstraksi fitur linear


untuk klasifikasi citra dimensi tinggi
data, POLA recogn, 53 (C) (2016) 73-86,

https://doi.org/10.1016/j.patcog.2015.11.015. [94] H. Wei, Z. Dong, Model V4 Neural Network untuk Shape Berbasis

Ekstraksi Fitur dan Object Diskriminasi,

kognitif Komputasi, 7 (6) (2015) 753-762,

https://doi.org/10.1007/s12559-017-9450-z.
DITERIMA NASKAH

[95] TN Thanh, Z. Li, TV Silander, TY Leong, Seleksi Fitur Online untuk berbasis Model Penguatan Learning,
konferensi internasional tentang pembelajaran mesin 2013; 498-506. [96] J. Luo, ZR Feng, J. Zhang, N. Lu,
pendekatan frekuensi dinamis seleksi fitur berdasarkan klasifikasi dari citra bermotor, Komputer Biologi &
Medicine, 75 (2016) 45-53,
https://doi.org/10.1016/j.compbiomed.2016.03.004 .

[97] SC Wu, AL Swindlehurst, ekstraksi Langsung fitur dari rekaman multi-elektroda untuk lonjakan menyortir [J]. Digital Signal

Processing, 2018, https://doi.org/10.1016/j.dsp.2018.01.016. [98] X. Pang, Y. Liao, Sebuah model klasifikasi teks berdasarkan

pemilihan sampel pelatihan dan fitur adjustement berat badan, Konferensi Internasional Advanced Computer Control, 3 (2010)

294-297, https://doi.org/10.1109/ICACC.2010.5486615 . [99] KH Thung, CY Wee, PT Yap, D. Shen, neurodegenerative diagnosis

penyakit dengan menggunakan data multi-modalitas lengkap melalui matriks penyusutan dan penyelesaian, NeuroImage, 91 (2)

(2014) 386-400, https://doi.org/10.1016 /j.neuroimage.2014.01.033. [100]

D. Zhang, D. Shen, Multi-modal multi-tugas belajar untuk prediksi bersama beberapa


regresi dan klasifikasi variabel dalam penyakit Alzheimer, NeuroImage, 59 (2) (2012) 895-907,

https://doi.org/10.1016/j.neuroimage.2011.09.069. [101]

R. Xia, C. Zong, X. Hu, E. Cambria, Fitur ensemble ditambah pemilihan sampel: domain

adaptasi untuk klasifikasi sentimen. IEEE INTELL SYST, 28 (3) (2013) 10-18,
https://doi.org/10.1109/MIS.2013.27. [102]

VE Neagoe, EC Neghina, seleksi Fitur dengan Ant Colony Optimization dan yang
aplikasi untuk pengenalan pola di citra ruang, IEEE ICC 2016; [103]
H

S. Hanneke, Kompleksitas sampel optimal OF belajar PAC, Journal of Machine Learning


A

Penelitian, 17 (38) (2016) 1-15. [104]


SK

E. Adeli, F. Shi, L. An, CY Wee, GR Wu, T. Wu, DG Shen, Joint fitur-sampel seleksi
and robust diagnosis of parkinson's disease from mri data, Neuroimage, 141 (2016) 206-219,

https://doi.org/10.1016/j.neuroimage.2016.05.054. [105]
NA

Y. Mohsenzadeh, H. Sheikhzadeh, AM Reza, N. Bathaee, MM Kalayeh, relevansi The


mesin sampel-fitur: jarang pendekatan pembelajaran Bayesian untuk seleksi fitur-sampel bersama, IEEE

transaksi di Sibernetika, 43 (6) (2013) 2241-2254,


A

https://doi.org/10.1109/TCYB.2013.2260736. [106]
M

S. Xiang, X. Shen, J. Ye, Efisien nonconvex seleksi fitur kelompok jarang via terus menerus

dan optimasi, Buatan Intelijen, 224 (2015) 28-50,


RI

berlainan

https://doi.org/10.1016/j.artint.2015.02.008 .
TE
DI
DITERIMA NASKAH

catatan biografi:

Xinzheng Xu saat seorang profesor di Universitas Cina Pertambangan dan Teknologi, Cina. Ia menerima
gelar BS dari Shandong Universitas Sains dan Teknologi pada tahun 2002, dan gelar MS nya dari
Universitas Xiamen pada tahun 2005. Dia menerima gelar Ph.D. gelar dari Universitas Cina
Pertambangan dan Teknologi pada tahun 2012. Minat penelitiannya meliputi pengenalan pola,
pembelajaran mesin, dan jaringan saraf et al.

Tianming Liang saat ini menjadi kandidat master di Universitas Cina Pertambangan dan Teknologi,
Cina. Ia menerima gelar sarjana dari Universitas Cina Pertambangan dan Teknologi pada tahun 2015.
H

Minat penelitiannya meliputi pengenalan pola dan mesin belajar.


A
SK
NA

Jiong Zhu saat ini menjadi kandidat master di Universitas Cina Pertambangan dan Teknologi, Cina.
A

Ia menerima gelar sarjana dari Universitas Cina Pertambangan dan Teknologi pada tahun 2015.
M

Minat penelitiannya termasuk jaringan saraf dan mesin belajar.


RI
TE
DI

Dong Zheng saat ini menjadi kandidat master di Universitas Cina Pertambangan dan Teknologi,
Cina. Ia menerima gelar sarjana dari Universitas Cina Pertambangan dan Teknologi pada tahun
2017. Minat penelitiannya meliputi pengenalan pola dan mesin belajar.
DITERIMA NASKAH

Tongfeng Sun saat ini adalah seorang profesor di Universitas Cina Pertambangan dan Teknologi, Cina. Ia
menerima gelar master dan Ph.D. gelar dari Universitas Cina Pertambangan dan Teknologi pada tahun
2004 dan 2012, masing-masing. Minat penelitiannya termasuk pengolahan informasi yang cerdas,
pengenalan pola, dan pembelajaran mesin et al.

A H
SK
NA
A
M
RI
TE
DI

Anda mungkin juga menyukai