Anda di halaman 1dari 13

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Daftar isi tersedia diSainsLangsung

Pembelajaran Mesin dengan Aplikasi

beranda jurnal:www.elsevier.com/locate/mlwa

Pembelajaran mendalam dalam visi komputer: Tinjauan kritis terhadap teknik yang
muncul dan skenario aplikasi
junyi chaisebuah,b,∗, Hao Zengsebuah, Anming Lic, Eric WT Ngaic
sebuahDivisi
Bisnis dan Manajemen, BNU-HKBU United International College, Zhuhai, China
bPusatStudi Evaluasi, Universitas Normal Beijing, Zhuhai, Cina
cDepartemen Manajemen dan Pemasaran, Universitas Politeknik Hong Kong, Hong Kong, Cina

INFO ARTIKEL ABSTRAK

Kata kunci: Pembelajaran mendalam telah sangat berhasil dalam visi komputer (CV), pemrosesan bahasa alami, dan
Pembelajaran mesin pengenalan video/ucapan. Dalam tulisan ini, fokus kami adalah pada CV. Kami memberikan tinjauan kritis tentang
Pembelajaran mendalam
pencapaian terbaru dalam hal teknik dan aplikasi. Kami mengidentifikasi delapan teknik yang muncul, menyelidiki
Visi komputer
asal dan pembaruannya, dan akhirnya menekankan penerapannya dalam empat skenario utama, termasuk
Tinjauan Literatur
pengenalan, pelacakan visual, segmentasi semantik, dan pemulihan gambar. Kami mengenali tiga tahap
pengembangan dalam dekade terakhir dan menekankan tren penelitian untuk pekerjaan masa depan. Rangkuman,
akumulasi pengetahuan, dan kreasi dapat bermanfaat bagi peneliti di akademisi dan peserta di industri CV.

Isi

1. Perkenalan................................................................... ................................................................... ................................................................... ................................................... 1


2. Perkembangan terkini pada arsitektur dan evolusi jaringan dalam................................................................... ................................................................... ............... 3
3. Pengakuan................................................................... ................................................................... ................................................................... ................................................... 4
3.1. Klasifikasi gambar................................................................... ................................................................... ................................................................... .......................... 4
3.2. Deteksi objek................................................................... ................................................................... ................................................................... ................................... 6
3.2.1. Detektor satu tahap................................................................... ................................................................... ................................................................... ............ 6
3.2.2. Detektor dua tahap: seri R-CNN................................................................... ................................................................... ........................................................ 6
4. Pelacakan visual................................................................... ................................................................... ................................................................... ................................................... 7
5. Semantik segmentasi................................................................... ................................................................... ................................................................... ................................. 8
6. Pemulihan gambar................................................................... ................................................................... ................................................................... ........................................................ 9
7. Analisis perkembangan terkini dan tren penelitian masa depan................................................................... ................................................................... ................................... 9
8. Penutup................................................................... ................................................................... ................................................................... ................................................... 11
Pernyataan kontribusi kepenulisan CReditT................................................................... ................................................................... ................................................................... ..... 11
Deklarasi kepentingan bersaing................................................................... ................................................................... ................................................................... .................. 11
Ucapan Terima Kasih................................................................... ................................................................... ................................................................... ........................................ 11
Referensi................................................................... ................................................................... ................................................................... ................................................................... .11

Metadata kode 1. Perkenalan

Tautan permanen ke Kapsul yang dapat direproduksi:https://doi.org/ Pembelajaran mendalam (DL), cabang kecerdasan buatan (AI), telah

10.24433/ CO.0411648.v1.
diperluas dengan struktur jaringan yang beragam. Fitur big data dapat
ditangkap oleh DL secara otomatis dan efisien.

Kode (dan data) dalam artikel ini telah disertifikasi sebagai Dapat Direproduksi oleh Code Ocean: (https://codeocean.com/). Informasi lebih lanjut tentang Reproduksibilitas
Inisiatif Lencana tersedia dihttps://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals.
∗ Penulis yang sesuai.
Alamat email:donjychai@uic.edu.cn (J.Chai),harveyhzeng@outlook.com (H.Zeng),amingli@polyu.edu.hk (A.Li),eric.ngai@polyu.edu.hk (EWT Ngai).

https://doi.org/10.1016/j.mlwa.2021.100134
Diterima 17 Maret 2021; Diterima dalam bentuk revisi 6 Agustus 2021; Diterima 6 Agustus 2021
Tersedia online 14 Agustus 2021
2666-8270/©2021 Para Penulis. Diterbitkan oleh Elsevier Ltd. Ini adalah artikel akses terbuka di bawah lisensi CC BY-NC-ND (http://
creativecommons.org/licenses/by-nc-nd/4.0/).
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Gambar 1.Arsitektur CNN untuk klasifikasi citra.

Aplikasi DL saat ini meliputi computer vision (CV), natural language data terbatas; (c) sulit untuk mencapai aplikasi real-time; (d) membutuhkan model
processing (NLP), video/speech recognition (V/SP), dan keuangan dan yang lebih kuat.
perbankan (F&B).Chai dan Li(2019) memberikan survei DL pada NLP Lebih-lebih lagi,Xu dkk.(2020) merangkum potensi CV untuk membantu
dan kemajuan pada V/SP. Survei menekankan tonggak dalam tugas-tugas manajerial di tempat berdasarkan artikel yang diterbitkan sejak
pengembangan DL di domain aplikasi ini. Penyelidikan mereka 2014. Baru-baru ini,Alzubaidi dkk.(2021) memperkenalkan struktur,
menunjukkan bahwa DL sangat menembus ke domain NLP dan V/SP. perkembangan, perangkat keras, dan tantangan teknologi CNN dan
Huang dkk.(2020) membahas perkembangan mutakhir DL di F&B. menganalisis tulang punggung CNN dari tahun 2012 hingga 2018. Mereka
Adamopoulou dan Moussiades(2020) mempresentasikan sejarah, lebih memperhatikan perkembangan CNN. Secara berbeda, makalah kami
teknologi, dan aplikasi sistem dialog alami yang diimplementasikan akan fokus pada pengembangan DL di bidang CV dan membuat ringkasan
melalui pendekatan pencocokan pola.Muzammel dkk. (2020) progresif di garis waktu.
mengusulkan aplikasi berbasis V/SP yang disebut AudVowelConsNet, DL yang diterapkan dalam pemrosesan informasi memiliki lebih banyak
untuk pengenalan dan penilaian depresi klinis dari ucapan. Dengan akumulasi dalam literatur. Oleh karena itu, kami menerapkan ketentuan
perkembangan DL, beberapa sarjana mulai mengeksplorasi arah berikut untuk membatasi koleksi artikel kami. Kami hanya memilih artikel
aplikasi industri. Sebagai contoh,Altan dkk.(2021) mengembangkan yang dipublikasikan tentang machine learning (ML), kecerdasan buatan,
model peramalan kecepatan angin hibrida (WSF) baru untuk prakiraan ilmu komputer, pengenalan pola, manajemen bisnis karena artikel ini
kecepatan untuk eksploitasi tenaga angin yang efisien berdasarkan kemungkinan besar sesuai dengan fokus survei ini. Kedua, mencari artikel
jaringan memori jangka pendek (LSTM) dan metode dekomposisi yang direview dari database akademik, termasuk Science Direct, Springer-
Link Journal, IEEE Xplore, Emerald, JSTOR, World Scientific Net, dan Google
dengan pengoptimal serigala abu-abu (GWO).
Scholar. Ketiga, kami membatasi periode publikasi antara 2014 dan 2020, di
Pada tahap awal pengembangan CV, pendekatan DL menghadapi
mana hanya ada sedikit pengecualian karena signifikansinya.
kesulitan karena keterbatasan memori komputer, CPU, dan GPU. Sebagian
besar sarjana meneliti penerapan ML di CV. Sementara itu, banyak metode
Sejak kinerja luar biasa dalam kompetisi ImageNet, CNN telah menjadi
untuk CV telah diusulkan, seperti K-means, Naive Bayes classifier, Decision
pendekatan DL yang paling menonjol (Gua dkk.,2016). Salah satu bidang
Tree, Boosting, Random Forest, Haar Classifier, Expectation–Maximization
yang paling penting dan mendasar untuk aplikasi CV adalah klasifikasi
(EM), K-Nearest Neighbor (KNN), dan Support Vector Machine (SVM).
gambar.Gambar 1menunjukkan arsitektur CNN untuk klasifikasi citra. CNN
Berdasarkan algoritma Adaboost,Viola dan Jones(2001) menggunakan fitur
terdiri dari convolutional layer, pooling layer, dan fully connected layer. Di
wavelet Haar-like dan metode grafik integral untuk deteksi wajah. Mereka
lapisan convolutional, CNN menggunakan berbagai kernel untuk
bukan yang pertama mengusulkan fitur wavelet, tetapi mereka telah
menggulung seluruh gambar dan peta fitur menengah, menghasilkan
merancang fitur deteksi wajah yang lebih berguna dan mengalirkan
berbagai peta fitur. Lapisan penyatuan digunakan untuk mengurangi
classifier kuat yang dilatih oleh Adaboost. Algoritma yang diusulkan disebut
dimensi peta fitur dan parameter jaringan. Untuk lapisan yang terhubung
detektor Viola-Jones. Nanti,Lienhart dan Maydt (2002) memperluas detektor
penuh, umumnya di akhir setiap arsitektur CNN dan berfungsi sebagai
ini dengan memutar fitur seperti Haar dan akhirnya membentuk
pengklasifikasi CNN. Setelah lapisan terhubung sepenuhnya, output dapat
pengklasifikasi Haar yang sekarang dimiliki OpenCV.
digunakan untuk klasifikasi Gambar seperti yang ditunjukkan pada Gambar
Perkembangan DL dalam beberapa dekade terakhir agak cepat, yang 1, atau dapat mentransfer output ke Deep Neural Networks (DNN)
secara luas dapat dipisahkan menjadi sepuluh kategori dalam hal algoritma berikutnya seperti yang ditunjukkan padaGambar 2.. Karena itu,Szegedy
dan arsitektur: Convolutional Neural Networks (CNNs), Long Short-Term dkk.(2016) berpendapat bahwa pencapaian pencapaian penelitian dalam
Memory Networks (LSTMs), Recurrent Neural Networks (RNNs), Generatif kinerja klasifikasi cenderung beralih ke peningkatan kualitas yang signifikan
Adversarial Networks (GANs), Radial Basis Function Networks (RBFNs), dalam berbagai bidang aplikasi.
Multilayer Perceptrons (MLPs), Self-Organizing Maps (SOMs), Deep Belief Secara khusus, kami merangkum perkembangan terbaru dalam DL dengan
Networks (DBNs), Restricted Boltzmann Machines (RBMs), dan Autoencoder. melihat ke delapan:munculteknik yang menjadi model dasar di banyak bidang
Gua dkk.(2016) membandingkan literatur dan kinerjanya masing-masing aplikasi CV, termasuk AlexNet, VGGNet, GoogLeNet & Inception, ResNet,
pada tugas CV yang berbeda, termasuk klasifikasi gambar, deteksi objek, DenseNet, MobileNets, EfficientNet, dan RegNet. Aplikasi DL yang luas diringkas
pengambilan gambar, segmentasi semantik, dan estimasi pose manusia. menjadi empat skenario aplikasi utama termasuk pengenalan, pelacakan visual,
Dengan membandingkan CNN, RBM, Autoencoder, dan Sparse Coding, segmentasi semantik, dan pemulihan gambar. Kami menganalisis literatur terbaru
mereka akhirnya menyimpulkan bahwa CNN adalah arsitektur yang paling dan mempertimbangkannya kembali sebagai tiga tahap pengembangan.
cocok untuk CV. Karena keterbatasan presisi dan ukuran model pada waktu Akhirnya, kami mengedepankan tren penelitian masa depan di sisi aplikasi dan
itu, bagaimanapun, ada beberapa tantangan dalam aplikasi praktis. Mereka karya masa depan.
termasuk (a) tidak ada pemahaman yang jelas tentang arsitektur mana yang Makalah ini bertujuan untuk mengidentifikasi teknik yang muncul
harus berkinerja lebih baik daripada yang lain; (b) pelatihan dengan dari DL dan pencapaian terbaru dari skenario aplikasi di domain CV.

2
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

mendukung bahwa peningkatan kedalaman jaringan dapat mempengaruhi


kinerja akhir jaringan sampai batas tertentu, VGGNet lebih unggul dari metode
lain pada periode yang sama karena memiliki ruang parameter yang besar. Model
terakhir VGGNet memiliki lebih dari 500 M, sedangkan AlexNet hanya memiliki 200
M. Oleh karena itu, biasanya dibutuhkan waktu lebih lama untuk melatih model
VGG daripada AlexNet.
(3) GoogLeNet & Inception:Lin dkk.(2014) memperkenalkan Jaringan-
in-network (NIN), yang terdiri dari setumpukmlpconvlapisan. Ini menggantikan
filter konvolusi dengan fungsi nonlinier umumperkiraan. Fitur lain dari NIN adalah
menggunakan penyatuan rata-rata global untuk menggantikan lapisan yang
terhubung sepenuhnya. Ini rata-rata setiap peta fitur dan memberi makan vektor
yang dihasilkan langsung kesoftmaxlapisan. Eksperimen pada beberapa
kumpulan data gambar menunjukkan bahwa NIN mencapai akurasi klasifikasi
yang sebanding atau lebih baik dengan parameter yang jauh lebih sedikit.
Szegedy dkk.(2015) mengusulkan arsitektur CNN baru yang disebut
Inception v1 sebagaiGambar 3menunjukkan. Untuk saat ini, peningkatan
ukuran arsitektur aman untuk meningkatkan kinerja. Namun demikian,
mereka berpendapat bahwa hal itu dapat mengakibatkan dua kemacetan:
(a) jumlah parameter yang lebih besar dan (b) peningkatan penggunaan
sumber daya komputasi. Untuk mengatasi masalah ini, mereka
memperkenalkan awal — lapisan arsitektur CNN. Ini berhasil meningkatkan
kedalaman dan lebar jaringan sambil menjaga anggaran komputasi tetap
konstan. Lapisan awal diulang beberapa kali dan membentuk GoogLeNet,
model kedalaman 22 lapisan. GoogLeNet menggunakan dua ide di NIN: 1×1
Konvolusi dan penyatuan rata-rata global.
Kemudian,Szegedy dkk.(2016) memperkenalkan serangkaian trik untuk
Gambar 2.Model dasar CNN dan model turunan.
meningkatkan efektivitas desain asli Inception v1. Ini menunjukkan bahwa
konvolusi dengan filter yang lebih besar cenderung tidak proporsional
mahal dalam hal perhitungan. Disarankan untuk mengganti filter dengan
Dengan demikian, kami meninjau delapan teknik dan empat aplikasi ukuran 5×5 (7×7) dengan dua ditumpuk 3×3 filter. Desain ini memanggil
secara rinci berdasarkan publikasi berkualitas antara 2014 dan 2020. Inception v2. Penulis juga menyebutkan bantuan normalisasi batch (BN),
Kami mengkategorikan perkembangan terakhir selama dekade yang menggunakan normalisasi dalam setiap data mini-batch untuk
terakhir menjadi tiga tahap, yaitu tahap awal (2012-2016), tahap tengah menormalkan output ke distribusi normal N (0,1), mengurangi perubahan
( 2016–2019), dan tahap terakhir (dari 2019). Kami mengidentifikasi tiga dalam distribusi neuron internal. Mereka menyebut desain ini sebagai
tren penelitian di sisi aplikasi dan dua arah di sisi teknis. Rangkuman, Inception v3. Terinspirasi oleh ResNet,Szegedy dkk.(2017) memperkenalkan
akumulasi pengetahuan, dan kreasi kami dapat bermanfaat bagi para Inception v4 sebagai versi sederhana dari Inception v3. Mereka
peneliti di akademisi dan peserta di industri CV. menggabungkan arsitektur Inception dengan koneksi residual dan
Sisa kertas diatur seperti di bawah ini. Kami pertama-tama akan membuat arsitektur baru yang disebut Inception-ResNet. Akhirnya,coklat(
meninjau teknik yang muncul di Bagian2dan kemudian tinjau empat 2017) mengusulkan Xception untuk meningkatkan kinerja Inception v3,
skenario aplikasi di Bagian3-6. Kami menganalisis perkembangan terkini dan menggantikan modul Inception dengan konvolusi yang dapat dipisahkan
menguraikan tren penelitian masa depan di Bagian7. Bagian8menyimpulkan secara mendalam. Xception sedikit mengungguli Inception v3 pada dataset
makalah ini. ImageNet dan jauh lebih unggul pada dataset JFT.
(4) ResNet:Dia dkk.(2016) berpendapat bahwa mempelajari fungsi residual
2. Perkembangan terkini pada arsitektur dan evolusi jaringan mengenai input layer lebih efisien daripada mempelajari parameter layer
dalam tanpa mengacu pada input. Mereka mengusulkan jaringan residual yang
disebut ResNet dengan 152 lapisan, yang delapan kali lebih dalam dari VGG
Dalam dekade terakhir, teknologi utama di bidang CV adalah CNN. Nets. Jaringan residual menggunakan beberapa lapisan parameter untuk
Banyak struktur jaringan berbasis CNN telah muncul setelah mempelajari representasi residu antara input dan output, daripada
keberhasilan AlexNet pada berbagai tugas klasifikasi gambar. Berikut menggunakan lapisan parameter untuk mempelajari pemetaan secara
ini adalah deskripsi perkembangan terkini dalam arsitektur dan evolusi langsung antara input dan output di jaringan CNN umum (misalnya,
jaringan dalam: AlexNet, VGG). Saat koneksi langsung ditingkatkan, itu mencapai tujuan
(1) AlexNet:Diusulkan olehKrizhevsky dkk.(2012), Alexnet terdiri mempromosikan masalah gradien yang hilang, memperkuat propagasi fitur,
dari lima lapisan konvolusi, diikuti oleh tiga lapisan yang terhubung. Setiap mendorong penggunaan kembali fitur, dan secara substansial mengurangi
convolutional layer diikuti oleh rectified linear unit (ReLU) yang digunakan untuk jumlah parameter.
''mengaktifkan'' output dari convolutional layer. Model asli AlexNet dilatih pada (5) PadatNet:Berdasarkan pengamatan bahwa jaringan konvolusi
dua GPU. Seseorang dapat mempertimbangkan keberadaan struktur jaringan pekerjaan lebih akurat dan lebih cepat,Huang dkk.(2017) diperkenalkan
berbasis CNN yang disebut Caffenet, yang memiliki struktur yang mirip dengan Jaringan Padatyang menghubungkan semua lapisan secara langsung satu
Alexnet. Perbedaannya adalah bahwa Caffenet menerapkan penyatuan sebelum sama lain. Menggunakan peta fitur dari semua lapisan sebelumnya sebagai
normalisasi respons lokal pada dua lapisan konvolusi pertama, sedangkan Alexnet input, DenseNet dapat membuat koneksi L(L+1)/2 daripada koneksi L dari
melakukan sebaliknya. jaringan konvolusi tradisional. Hasilnya, ia memiliki empat keuntungan: (a)
(2) VGGNet:Diusulkan olehSimonyan dan Zisserman(2015), VGGNet mengurangi masalah gradien hilang, (b) memperkuat propagasi fitur, (c)
meningkatkan kedalaman jaringan dengan menambahkan lebih banyak lapisan mendorong penggunaan kembali fitur, (d) secara substansial mengurangi
konvolusi dengan menggunakan filter konvolusi kecil (3×3) sementara parameter jumlah parameter.
lainnya tetap. Dengan mendorong kedalaman ke 16 dan 19 lapisan berat, (6) MobileNet:Howard dkk.(2017) menyajikan kelas efisien
peningkatan signifikan pada konfigurasi sebelumnya dapat dicapai, umumnya model yang disebut MobileNets (v1), yang menggunakan dua hiperparameter
disebut VGG-16 dan VGG-19. Meskipun VGG-16 dan VGG-19 global sederhana yang secara efisien menukar antara latensi dan akurasi. Dalam

3
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Gambar 3.Modul awal, versi naif (Szegedy dkk.,2015).

Dataset ImageNet, misalnya, parameter MobileNet (v1) hanya 4,2 juta, Selain CNN dan RNN, Restricted Boltzmann Machine (RBM) adalah
sedangkan VGG16 menggunakan 138 juta, yang menghasilkan perbedaan jaringan saraf dangkal dua lapis yang mempelajari probabilitas gabungan
bujur hanya 0,9%. Pada sisi negatifnya, struktur MobileNet V1 mirip dengan dari input yang terlihat dan unit tersembunyi. RBM mempelajari probabilitas
VGG. Dibandingkan dengan ResNet, Densenet dan struktur lainnya memiliki unit tersembunyi, input x yang diberikan, dan bobotnya adalah p(a| x; w).
kinerja yang relatif murah. Konvolusi yang mendalam sangat mengurangi Jaringan kepercayaan yang mendalam dapat dianggap sebagai tumpukan
biaya komputasi. Kemudian×N kedalaman +1×1 struktur pointwise bisa RBM. Autoencoder akan mencoba mempelajari satu set parameter untuk
dekat dengan N×N Konv dalam performa. Dalam penggunaan sebenarnya, rekonstruksi x setelah diberikan satu set input x. Biasanya berisi dua modul:
inti dari bagian depthwise mudah ditinggalkan dengan pelatihan. Namun encoder dan decoder. Untuk Pengkodean Jarang,Elad dan Aharon(2006)
demikian, banyak kernel yang dilatih oleh depthwise kosong. menyediakan algoritma K-SVD klasik.Xie dkk.(2012) mengembangkan skema
pelatihan untuk denoising auto-encoder, yang dapat mengejar kinerja yang
Sandler dkk.(2018) memperkenalkan jaringan saraf yang disebut MobileNetV2 untuk
klasik (lihatTabel 1).
meningkatkan MobileNetV1 dalam dua aspek utama. Pertama, mereka memperkenalkan
bottleneck linier yang menggunakan aktivasi Linear alih-alih ReLU untuk mencegah
3. Pengakuan
lapisan nonlinier kehilangan beberapa informasi. Terinspirasi oleh ResNet, mereka
mempresentasikan Residual Terbalik untuk Meningkatkan propagasi gradien antar
3.1. Klasifikasi gambar
lapisan, dengan efisiensi memori yang lebih tinggi.
Howard dkk.(2019) membuat MobileNetV3 hadir dalam dua versi, Klasifikasi gambar bertujuan untuk menetapkan label yang telah ditentukan
MobileNetv3-Small dan MobileNetv3-Large, yang memiliki persyaratan sebelumnya ke input. Semua arsitektur jaringan yang disebutkan sebelumnya
komputasi dan penyimpanan yang lebih rendah dan lebih tinggi. dapat digunakan untuk klasifikasi citra.Zeiler dan Fergus(2014) diusulkan untuk
MobileNetV3 menerapkan pencarian arsitektur jaringan (NAS) dan algoritma menggunakan jaringan dekonvolusi berlapis (deconvnet) untuk memproyeksikan
NetAdapt untuk meningkatkan kinerja. MobileNetv3-Large meningkatkan aktivasi fitur kembali ke ruang piksel masukan. Alih-alih memetakan piksel ke fitur,
akurasi sekitar 3,2% dibandingkan MobileNetV2 dalam tugas klasifikasi deconvnet dilakukan sebaliknya. Untuk mencapai visualisasi ruang piksel, mereka
ImageNet tetapi mengurangi waktu sebesar 20%. Bandingkan dengan menjalankan hasil sebelumnya melalui tiga proses berikutnya:
MobileNetv3-Small, akurasi tugas klasifikasi ImageNet ditingkatkan sebesar (a) Unpooling: dengan merekam lokasi maksimal dalam masing-masing
6,6% dengan latensi yang sebanding. MobileNetv3-Large mencapai akurasi pooling region untuk menempatkan rekonstruksi dari layer di atas ke
yang sama pada deteksi COCO dan 25% lebih cepat daripada MobileNetV2. lokasi yang sesuai.
(7) Jaringan Efisien:Tan dan Le(2019) ditemukan bahwa membuat keseimbangan (b) Rectification: merekonstruksi sinyal melalui non-linearitas ReLU.
kedalaman, lebar, dan resolusi jaringan dapat menghasilkan kinerja yang lebih (c) Pemfilteran: menggunakan filter yang dipelajari untuk menggabungkan peta fitur dari

baik, dan dengan demikian memperkenalkanJaringan yang Efisien. Secara lapisan sebelumnya.
keseluruhan, EfficientNet-B7 mencapai akurasi 84,4% top-1 dan 97,1% top-5 Proyeksi berbagai lapisan terlatihdeconvnetmenunjukkan sifat
mutakhir di ImageNet, sementara menjadi 8,4x lebih kecil dan 6,1x lebih cepat hierarkis fitur diAlexnet. Disimpulkan bahwa ukuran jendela reseptif
pada inferensi daripada GPipe (Huang dkk.,2019). EfficientNets juga mentransfer
yang lebih kecil dan langkah langkah yang lebih kecil dari lapisan
pertama dapat meningkatkan kinerjaAlexNetuntuk klasifikasi gambar.
dengan baik dan mencapai akurasi mutakhir pada CIFAR-100 (91,7%), Bunga
Algoritma lain layak disebutkan di sini. Untuk memecahkan masalah
(98,8%), dan tiga set data pembelajaran transfer lainnya, dengan urutan
nontransparansi di DNN,Lapuschkin dkk.(2016) menunjukkan bahwa
parameter yang lebih sedikit.
LRP dapat menjelaskan pengklasifikasi dengan lebih baik dan
(8) RegNet:Radosavovic dkk.(2020) menghadirkan jaringan baru
membantu orang mendapatkan lebih banyak wawasan ilmiah.
Paradigma desain disebutRegNetyang menggabungkan keunggulan desain
Misalnya, saat membedakan ilustrasi dari foto, fitur buatan tangan dan
manual dan NAS. Ruang desain RegNet dapat bekerja dengan sempurna di
fitur deteksi garis luar berkinerja buruk karena tidak adanya warna
berbagai rezim kegagalan karena merupakan jaringan yang sederhana dan
garis gelap. Sebaliknya, DCNN fine-tuning memiliki akurasi yang sangat
cepat. Di bawah pengaturan dan kegagalan pelatihan yang serupa, model tinggi (96,8%), yang mengungguli model lain, termasuk model CNN
RegNet mengungguli model EfficientNet yang populer, yang hingga 5 kali khusus yang dilatih dari awal (Gando dkk.,2016).
lebih cepat pada GPU. Meskipun ketepatan RegNet bukanlah peningkatan Untuk klasifikasi gambar radar aperture sintetis resolusi tinggi, jaringan
besar dibandingkan dengan EfficientNet, ia mengusulkan ide-ide baru ke kepercayaan mendalam diskriminan (DisDBN) diperkenalkan untuk mempelajari
arah desain ruang desain jaringan. Saat ini, RNN dan LSTM lebih sering fitur-fitur diskriminan dan tangguh. Setelah melatih satu set pengklasifikasi lemah,
digunakan dalam pengenalan NLP dan audio. Tren yang meningkat adalah melakukan proyeksi diskriminatif, dan mempelajari fitur diskriminatif tingkat
persimpangan bidang CV dan NLP.Ye dkk.(2020) mengusulkan jaringan tinggi, penulis membuktikan keefektifan DisDBN melalui tiga percobaan. Namun,
LSTM (ConvLSTM) convolutional ganda yang terdiri dari jaringan encoder karena strategi pemilihan tetangga dari pengklasifikasi yang lemah,
dan jaringan decoder untuk menangkap informasi spasial dan sekuensial penyimpangan besar dalam pelabelan semu mungkin ada (Zhao dkk.,2017).
dalam gambar input.

4
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Tabel 1
Ringkasan terperinci tentang arsitektur dan perkembangan jaringan dalam.
Arsitektur Tahun Kompleksitas model Trik pengoptimalan KHUSUS Kumpulan data uji Keterbatasan

AlexNet 2012 60 juta parameter dan Dua GPU, Rectified Linear Units LSFRC-2010 Ruang untuk akurasi
650.000 neuron, terdiri dari (ReLUs), Respons Lokal peningkatan
dari lima lapisan konvolusi, beberapa Normalisasi (LRN), Penggabungan
di antaranya diikuti oleh Tumpang Tindih, Augmentasi Data, Putus
lapisan max-pooling, dan tiga lapisan yang Sekolah
terhubung penuh dengan softmax 1000
arah akhir.

VGGNet 2014 Lapisan konvolusi menggunakan Bangun jaringan kedalaman dengan LSFRC-2010 Mengevaluasi jaringan
sangat kecil (3×3) filter konvolusi di menggunakan kembali blok konvolusi membutuhkan banyak
semua lapisan untuk meningkatkan sederhana (kecil (3×3) filter konvolusi), perhitungan
kedalaman jaringan. Beberapa Evaluasi padat, Evaluasi multi-tanaman
jaringan diusulkan, terutama VGG16
(138 juta parameter) dan VGG19 (144
juta parameter). 13/19 lapisan
konvolusi dengan tiga terhubung
sepenuhnya
lapisan.

GoogLeNet/Inception v1 2014 9 modul Inception, 22 lapisan dalam (21 Modul awal, Pengumpulan Rata-Rata ILSVRC-2012 Kompleksitas
lapisan convolutional dan satu terhubung Global, Pengklasifikasi tambahan, arsitektur Inception
sepenuhnya Dropout, Evaluasi multi-tanaman membuat lebih sulit untuk
layer) saat menghitung hanya layer membuat perubahan pada
dengan parameter (atau 27 layer jika kita jaringan. Membuatnya lebih sulit
juga menghitung pooling) dan untuk menyesuaikannya dengan
parameter 12 kali lebih sedikit daripada kasus penggunaan baru saat
AlexNet. mempertahankan efisiensinya.

Inceptionv2 2016 Total sepuluh modul awal dengan Normalisasi Batch (BN), Tiga jenis ILSVRC-2012
memfaktorkan 7 . tradisional×7 modul awal, Pengurangan Ukuran
Konvolusi menjadi tiga 3×3 Kotak
convolution s.network memiliki
kedalaman 42 lapisan. Biaya
komputasi kami hanya sekitar 2,5 lebih
tinggi daripada GoogLeNet, dan masih
jauh lebih efisien daripada VGGNet.

Inceptionv3 2016 Berdasarkan awalV2 BN-auxiliary, Evaluasi multi- ILSVRC-2012 Relatif kompleks dan
arsitektur, tambahkan kembali beberapa tanaman, Label Smoothing mempartisi model untuk pelatihan
trik pengoptimalan khusus dengan Regularization (LSR), RMSProp terdistribusi menggunakan
kurang dari 25 juta parameter. ketidakpercayaan

Awalv4 2017 Total 14 modul awal dengan satu Modul batang, modul awal ILSVRC-2012 Lebih kompleks dan membutuhkan waktu

modul batang. baru lebih lama untuk dijalankan daripada V3

ResNet 2016 152 lapisan, yang delapan kali Blok Sisa, koneksi ILSVRC-2012, Menderita overfitting
lebih dalam dari VGG Nets, dan Pintasan, VOC PASCAL
dengan 1,7 juta parameter. Nol-padding, Pintasan proyeksi 2007/2012
Jaringan Padat 2017 Tiga blok padat dan Lapisan Blok padat, Batch CIFAR-10 (C10),
Transisi. Jumlah parameter Normalisasi (BN) CIFAR100,
meningkat dari 1,0M menjadi Rumah Pemandangan Jalan

27,2M tanpa menderita Angka (SVHN),


overfitting atau kesulitan ILSVRC-2012
optimasi jaringan residual.
MobileNet (v1) 2017 Dua global sederhana Konvolusi Depthwise, YFCC100M, Ruang untuk akurasi
hyperparameters efisien trade- Konvolusi Pointwise, Anjing Stanford, peningkatan
off antara latency dan akurasi. Normalisasi Batch (BN) Im2GPS, COCO,
Parameternya hanya 4,2 juta. ImageNet

MobileNetV2 2018 Memfaktorkan konvolusi Struktur residu terbalik, Kemacetan COCO, PASCAL Ruang untuk akurasi
tradisional menjadi 1×1 Linier VOC 2012 peningkatan
konvolusi. Parameternya hanya
3,4 juta.
MobileNetsV3 2019 V3-Large memiliki 5,4 juta parameter, h-wish, Squeeze-and-excitation COCO, Pemandangan Kota Meningkatkan akurasi tetapi
dan V3-Small memiliki 2,5 juta (SE), NetAdapt, Neural mengurangi kecepatan
parameter. Penelusuran Arsitektur (NAS)

Jaringan yang Efisien 2019 Compound menskalakan jaringan. Penskalaan Model Senyawa CIFAR-100, Biaya pencarian untuk pencarian
Memiliki delapan macam jaringan, CIFAR-10, Bunga, grid tinggi.
EfficientNet-B0 hanya memiliki 5,3 Birdsnap, Stanford
juta parameter, bahkan Mobil, Pesawat FGVC,
EfficientNet-B7 hanya memiliki 66 hewan peliharaan Oxford-IIIT,

juta parameter. Makanan-101

RegNet 2020 Menggabungkan keunggulan Desain ruang desain LSFRC-2010


desain manual dan
NAS.REGENCY-400MF hanya menggunakan 4,3
juta parameter untuk mencapai hasil serupa
dari EfficientNet-B0.

5
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

3.2. Deteksi objek sebagai tulang punggung. Dan, BatchSize berubah dari 64 menjadi 196. Selain itu,
dengan menambahkan IOU Loss, Grid Sensitive, dan IOU Aware, membatasi penggunaan
Klasifikasi citra mendeskripsikan citra, sedangkan pendeteksian objek DropBlock, PP-YOLO meningkatkan mAP pada COCO dari 43,5% menjadi 45,2%, dengan
bertujuan untuk mendeteksi letak sekumpulan objek sasaran. Tugas deteksi FPS meningkat dari 62 menjadi 72,9 dibandingkan dengan YOLOv4.
terdiri dari dua sub-tugas, satu adalah informasi kategori dan probabilitas (2) SSD
target, dan juga merupakan tugas klasifikasi. Yang lainnya adalah lokasi Liu dkk.(2016) menyajikan metode yang menghilangkan proses
spesifik target dengan memanfaatkan kotak pembatas dengan label, yang menghasilkan kotak pembatas. Metode mereka pertama-tama
merupakan tugas penentuan posisi. memproses enam peta fitur. Setiap kotak jangkar pada setiap peta fitur
Metode arus utama saat ini terutama dibagi menjadi pendekatan satu menghasilkan panjang kotak jangkar yang berbeda pada input asli.
tahap (misalnya, SSD, YOLO) dan pendekatan dua tahap (misalnya, seri R- Oleh karena itu, dapat berfungsi peta fitur dari resolusi yang berbeda
CNN). Pendekatan dua tahap pertama-tama menghasilkan satu set kotak untuk menangani berbagai ukuran objek. Kecepatan deteksi hingga 59
pembatas yang jarang dari gambar. Kemudian melakukan koreksi FPS ketika ukuran input 300×300. Mengubah ukuran input menjadi 512
berdasarkan daerah kotak pembatas untuk meningkatkan hasil deteksi ×512 mencapai 76,9% mAP pada dataset VOC 2007, yang mengungguli
akhir. Sebaliknya, pendekatan satu tahap secara langsung menghitung algoritma deteksi kritis, R-CNN yang lebih cepat.
gambar dan menghasilkan hasil deteksi. Kecepatan deteksi satu tahap lebih Berdasarkan SSDnya,Fu dkk.(2017) mencoba mengubah jaringan dasar dari
cepat, tetapi akurasi deteksi lebih rendah. Sebaliknya, pendekatan dua tahap VGG menjadi Residual-101 (Dia dkk.,2016), sedangkan tingkat akurasi turun dari
adalah kebalikannya. Komponen dan klasifikasi pendeteksi objek 77,5% menjadi 76,4%. Terinspirasi oleh MS-CNN (Cai dkk., 2016), mereka
diperlihatkan dalamMeja 2. menambahkan modul prediksi untuk meningkatkan sub-jaringan setiap tugas
untuk meningkatkan akurasi. Meskipun akurasi akhir tidak jauh dari akurasi
3.2.1. Detektor satu tahap SSD513, yang juga merupakan jaringan Residual-101, Deconvolutional Single Shot
(1) YOLO Detector (DSSD) dapat memantau objek kecil dari suatu gambar dengan lebih
Redmon dkk.(2016) mengusulkan YOLO yang membingkai masalah deteksi objek baik.
sebagai masalah regresi alih-alih klasifikasi. Salah satu fitur penting dari metode ini (3) RetinaNet
adalah kecepatan deteksi yang cepat. Seperti yang diklaim oleh penulis, YOLO dapat Lin, Goyal dkk.(2017) berpendapat bahwa akurasi pendekatan onestage yang rendah
mencapai 45 frame per detik, dan versi cepat memiliki efisiensi yang lebih tinggi. Artinya, disebabkan oleh ketidakseimbangan kelas dan mengusulkan struktur baru, RetinaNet,
155 frame per detik menggandakan mAP (rata-rata Presisi Rata-rata) dibandingkan menggunakan Focal Loss. RetinaNet menggunakan ResNet dan Feature Pyramid
dengan sistem waktu nyata lainnya. Perhatikan bahwa YOLO masih tertinggal dalam Network (FPN) sebagai tulang punggung. Ini menggunakan pengenalan target tingkat
sistem deteksi kritis dalam hal akurasi. tunggal dengan kehilangan fokus, yang dapat menerapkan istilah modulasi untuk
Redmon dan Farhadi(2017) memperkenalkan YOLO9000 (juga dikenal kehilangan lintas-entropi. Ini untuk memfokuskan pembelajaran pada contoh-contoh
sebagai YOLOv2), yang membuat berbagai peningkatan pada YOLO dan sulit dan mengurangi banyak hal negatif yang mudah. Struktur ini mencapai 39,1 mAP
dapat mendeteksi lebih dari 9000 kategori objek. Bandingkan dengan YOLO, lebih tinggi dari 36,2 mAP yang Lebih Cepat R-CNN pada FPN (Lin, Dolar dkk.,2017)
YOLOv2 membuat perubahan berikut, termasuk normalisasi batch, didasarkan pada kumpulan data COCO yang menantang.
menggunakan gambar pelatihan resolusi tinggi, cluster dimensi, dan
convolutional dengan kotak jangkar, yang berarti memprediksi offset, bukan 3.2.2. Detektor dua tahap: seri R-CNN
koordinat kotak pembatas. Pada kecepatan 40 FPS (Frame Per Second), Terinspirasi oleh kesuksesan besar CNN untuk klasifikasi gambar,Girshick dkk.
YOLOv2 mencapai 78,6 mAP pada dataset VOC 2007, yang mengungguli (2014) mengusulkan metode tiga modul untuk memanfaatkan CNN pada deteksi
algoritme deteksi kritis, R-CNN yang lebih cepat dengan ResNet dan SSD. objek. Ini pertama-tama menghasilkan satu set proposal objek independen objek
Mereka juga mengusulkan metode pelatihan bersama yang dapat dalam bentuk wilayah pada gambar input. Kemudian mengekstrak fitur dalam
memprediksi lokasi kelas objek tanpa data deteksi berlabel. YOLOv3 dengan panjang tetap menggunakan CNN dari wilayah gambar yang diproses.
kemudian diusulkan olehRedmon dan Farhadi(2018). Tulang punggung Terakhir, fitur ini dimasukkan ke satu set SVM linier (Support Vector Machine) yang
YOLOv3 telah berevolusi dari Darknet-19 di YOLOv2 menjadi Darknet-53, mengidentifikasi jenis objek. Penulis menamakan metode ini R-CNN.
yang memperdalam jumlah lapisan jaringan dan memperkenalkan operasi
penambahan lintas lapisan di ResNet. Meskipun Darknet-53 memproses 78 Dia dkk.(2015) memeriksa kembali persyaratan input gambar dan mengusulkan
gambar per detik, yang jauh lebih lambat daripada Darknet-19 (171 FPS), itu strategi penyatuan baru. Lapisan yang terhubung penuh hanya membutuhkan input
masih jauh lebih cepat daripada ResNet-152 (37 FPS) dan ResNet-101 (53 berukuran tetap yang menghasilkan input gambar berukuran tetap. Mereka
FPS). 320 x 320 YOLOv3 berjalan dalam 22 mdtk pada 28,2 mAP, seakurat berpendapat bahwa itu mungkin menyebabkan kinerja yang buruk pada tugas-tugas
SSD, namun tiga kali lebih cepat. Ketika kita melihat metrik deteksi mAP .5 seperti deteksi objek. Mereka mengembangkan struktur jaringan yang disebut SPP-net,
IOU (Intersection over Union) lama YOLOv3 cukup baik. Ini mencapai 57,9 AP yang mengambil gambar dengan ukuran arbitrer sebagai input dan mencapai 63,1 mAP
50dalam 51 mdtk di Titan X, dibandingkan dengan 57,5 AP50dalam 198 ms pada dataset uji VOC 2007. Mereka mengklaim keunggulannya dalam menangani
oleh RetinaNet, yang memiliki kinerja serupa tetapi 3,8 kali lebih cepat. deformasi objek. Makalah ini sangat berdampak pada pekerjaan selanjutnya mengenai
Meskipun akurasi YOLOv3 tidak jauh lebih baik daripada jaringan lain, ia deteksi objek karena memungkinkan ekstraksi fitur yang cepat dari berbagai daerah
memiliki kecepatan yang lebih tinggi daripada pesaing lainnya. pada gambar input.
Redmon dan Farhadi(2018) percaya bahwa CV telah digunakan dalam Terinspirasi olehDia dkk.'s (2015) kerja,girsick(2015) merancang jaringan yang
penggunaan yang meragukan dan telah menghentikan penelitian di YOLO dapat mengklasifikasikan objek dan memprediksi lokasi kotak pembatas secara
setelah YOLOv3 selesai. Versi YOLO berikutnya setelah YOLOv3 semuanya bersamaan, yaitu fast R-CNN. Pertama, itu menghasilkan satu set proposal objek
merupakan peningkatan berdasarkan V3. Sejauh ini, serial YOLO telah untuk gambar menggunakan algoritma yang disebut pencarian selektif. Dan
melahirkan beberapa cabang.Bochkovskiy dkk.(2020) meningkatkan YOLOv4 kemudian, itu mengekstraksi fitur yang dalam dari setiap wilayah dengan bantuan
secara signifikan, seperti weighted-residual-connection (WRC), cross-stage- ROIlapisan penyatuan. Fitur dan koordinat yang diekstraksi dari kotak pembatas
partial-connections (SCP), cross mini-batch Normalization (CmBN), self- yang sesuai dimasukkan ke dalam asoftmaxpengklasifikasi dan kotak pembatas
adversarial-training (SAT), dan mish-activation. Mereka juga menerapkan trik kemunduran,masing-masing. Dibandingkan dengan R-CNN, metode ini telah
termasuk augmentasi data Mosaic, regularisasi DropBlock, dan kehilangan menggabungkan dua modul terakhir dan dengan demikian mengurangi pelatihan
CIoU (Complete-IOU). Hasil YOLOv4 adalah 43,5% AP (Average Precision) (18,3 x lebih cepat) dan waktu pengujian (169 x lebih cepat) di grup S.
(65,7% AP50) untuk kumpulan data MS COCO dengan kecepatan waktu nyata Ren dkk.(2017) diperpanjanggirsick's (2015) bekerja untuk mencapai tujuan
∼65 FPS pada Tesla V100. deteksi objek waktu nyata. Metode mereka bertujuan untuk memecahkan
PP-YOLO (Panjang dkk.,2020) telah mendapat peningkatan berdasarkan hambatan dalam menghasilkan proposal objek. Jaringan Proposal Wilayah (RPN)
YOLOv3 setelah YOLOv4, yang menggunakan Resnet50-V alih-alih Darknet53 diperkenalkan untuk memprediksi batas objek dan skor objek.

6
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Meja 2
Komponen dan klasifikasi pendeteksi objek.
Memasukkan Gambar, Tambalan, Gambar Piramida

Tulang punggung platform GPU VGG, ResNet, CSPResNeXt, CSPDarknet53, DenseNet, EfficientNet-B0/B7, GhostNet, RegNet
Platform CPU SqueezeNet, MobileNet(V1–V3+), ShuffleNet(V1–V2),
Leher Blok tambahan SPP, ASPP, RFB, SAM
Blok agregasi jalur FPN, PAN, NAS-FPN, NAS-FPN, FPN yang terhubung penuh, BiFPN, ASFF, SFAM

kepala Satu panggung Jangkar RPN, SSD, YOLO (V2–V4), RetinaNet


Bebas jangkar YOLOV1, CornerNet, CenterNet, MatrixNet, FCOS, ATSS, PAA,
Dua tahap Jangkar R-CNN, R-FCN, Mask R-CNN, Libra R-CNN RepPoints
Bebas jangkar lebih cepat

Metode ini menggabungkan semua langkah menjadi satu jaringan saraf. Dengan demikian, Wang, Liu dkk.(2015) berpendapat bahwa fitur generik tidak dapat
mereka menyebut metode ini sebagai R-CNN yang lebih cepat. Di dalamnya, perhitungan tidak menangkap invarian temporal, dan DLT tidak dapat mentransfer dari
dibagikan di seluruh halaman, menghasilkan perhitungan dan waktu ekstra. Untuk mengatasi pembelajaran offline ke Pelacakan Online. Untuk mengatasi kedua masalah
kekurangan tersebut,Dai dkk.(2016) memperkenalkan R-FCN, detektor berbasis wilayah yang tersebut, mereka mengusulkan CNN dua lapis yang mempelajari fitur dari
sepenuhnya konvolusi dengan peta skor yang peka terhadap posisi. ItuROItempat penyatuan rangkaian video bantu offline. Fitur yang dipelajari kemudian diadaptasi
antara lapisan R-CNN yang lebih cepat dapat mempengaruhi invarians translasi dan membuat R- secara online untuk urutan video target yang diberikan melalui modul
FCN mendapatkan akurasi yang sama dengan waktu 19x lebih sedikit. adaptasi. Penulis mengklaim bahwa fitur yang dipelajari kuat untuk
transformasi gerak dan perubahan penampilan. Mengenai kekuatan
Lin, Dolar dkk.(2017) FPN yang diusulkan. Arsitektur ini memanfaatkan bentuk diskriminatif fitur generik dan proses pelatihan yang memakan waktu,Zhang
piramida dari hierarki fitur ConvNet dan membangun peta fitur semantik tingkat dkk.(2016) mengusulkan metode pelatihan online berbasis CNN yang
tinggi di semua skala. Menggunakan FPN dalam model Faster R-CNN, metode memanfaatkan struktur jaringan konvolusi ringan. Ini terdiri dari dua
mereka meningkatkan presisi rata-rata secara signifikan, mencapai kinerja yang lapisan: lapisan sederhana dan lapisan kompleks. Lapisan sederhana berisi
lebih baik daripada banyak entri model tunggal pemenang kompetisi yang filter tetap yang dihasilkan dari wilayah target dan wilayah sekitarnya,
direkayasa secara berat seperti G-RMI dan Faster R-CNN+++.Dia dkk.(2017) sedangkan lapisan kompleks digunakan untuk menangani masalah
diperpanjangRen dkk.'s (2017) bekerja dengan menyisipkan cabang paralel untuk ambiguitas lokasi. Dan, algoritma convolutional network-based tracker (CNT)
memprediksi topeng objek untuk melakukan segmentasi semantik. Karya tersebut ini mencapai AUC 0,545, yang mengungguli metode DLT sebesar 10,9%.
juga memperkenalkanROISejajarkan untuk menggantikan tradisionalROIPooling, Wang, Li dkk.(2015) melakukan studi mendalam tentang fitur lapisan CNN
yang bukan merupakan penyelarasan piksel-ke-piksel, meningkatkan akurasi dari yang berbeda untuk menginspirasi ekstraktor fitur yang lebih efektif dari
10% menjadi 50%. Metode ini menunjukkan hasil yang lebih unggul daripada pelacak berbasis CNN. Lapisan atas CNN memiliki daya diskriminatif yang
model lain di semua trek rangkaian tantangan COCO. Metode ini bernama Mask R- lebih membedakan target dari kelas lain dan lebih toleran terhadap
CNN, dan mencapai 62,3% AP50pada kumpulan data MS COCO. Selain R-CNN dan deformasi objek. Di sisi lain, lapisan bawah menangani distraktor lebih baik
variannya, metode signifikan lainnya juga ada, meningkatkan kecepatan deteksi daripada lapisan atas. Dengan demikian, mereka merancang mekanisme
atau akurasi deteksi. yang dapat beralih antara fitur dari lapisan bawah dan fitur dari lapisan atas
tergantung pada keberadaan distraktor. Menggunakan peningkatan ini
Seri R-CNN, seri YOLO, SSD, dan RetinaNet yang disebutkan di atas semuanya meningkatkan metrik AUC dari kurva tingkat tumpang tindih dari 0,529
didasarkan pada algoritma deteksi target Anchor.Hukum dan Deng (2018) menjadi 0,602 untuk tolok ukur terbuka (lihatGambar 4).
menghadirkan model Anchor Free baru yang disebut CornerNet. CornerNet Demikian pula,Qi dkk.(2016) mengusulkan metode yang membentuk pelacak yang lebih kuat
mencapai tujuan menggunakan peta panas, penyematan, offset, dan AP 40,5%, AP dengan melakukan lindung nilai terhadap sekumpulan pelacak lemah yang dihasilkan dari
56,5%50pada kumpulan data MS COCO. Hal ini dapat memecahkan dua masalah beberapa lapisan CNN yang telah dilatih sebelumnya. Mereka berpendapat bahwa fitur dari satu
utama: (1) Kelas Ketidakseimbangan yang mencoba Focal Loss untuk lapisan tidak dapat sepenuhnya memanfaatkan kekuatan CNN. Mereka menyimpulkan bahwa
menyelesaikannya (Lin, Goyal dkk.,2017), dan (2) pengenalan lebih banyak keputusan online algoritma lindung nilai teoretis digunakan untuk menimbang setiap pelacak
hyperparameter, seperti jumlah, ukuran, dan rasio aspek jangkar. Terinspirasi yang lemah dan membuktikan efektivitas algoritma pelacakan dalam lindung nilai yang diusulkan
oleh CornerNet, beberapa peneliti menghadirkan banyak model Anchor Free. (lihatGambar 5).
Seperti CenterNet (Zhou dkk.,2019), FCOS (Tian dkk.,2019), dan RepPoints (Yang Sementara banyak pelacak yang ada menggunakan jaringan dalam,Yun dkk.(
dkk.,2019). 2017) merancang pelacak untuk mencapai komputasi ringan dan akurasi
pelacakan yang memuaskan, pelacak melacak target dengan tindakan berulang
4. Pelacakan visual yang dikendalikan oleh jaringan keputusan tindakan (ADNet), yang telah dilatih
dengan baik oleh pembelajaran yang diawasi dan pembelajaran penguatan.
Pelacakan visual adalah salah satu topik paling menantang di bidang CV. Nantinya, dalam adaptasi online di Tracking, algoritma tracking akan lebih kuat
Di dunia nyata, pelacakan visual dipengaruhi oleh faktor eksternal, termasuk terhadap deformasi. Dalam percobaan pelacakan visual, ADNet memiliki presisi
variasi pose, variasi iluminasi, oklusi penuh atau sebagian, dan noise dalam dan tingkat keberhasilan yang sama (64,6% AUC, Area Under Curve) dengan
video. Para peneliti lebih memperhatikan metode multi-isyarat.Walia dan MDNet dan C–COT.
Kapoor(2016) mengkategorikan metode pelacakan multi-isyarat menjadi Lagu dkk.(2018) menunjukkan bahwa pelacak dengan jaringan klasifikasi
modal tunggal dan multi-modal. Berbeda,Kumar dkk.(2020) dalam saat ini memiliki dua kelemahan: (a) sampel positif sangat tumpang tindih,
mengkategorikan pelacakan objek multi-isyarat ke dalam arsitektur dan (b) sampel positif dan negatif sangat tidak seimbang. Sebuah algoritma VITAL
tradisional dan pelacak berbasis DL. diusulkan untuk memecahkan masalah melalui pembelajaran permusuhan. Untuk
Wang dan Yeung(2013) menganggap masalah pelacakan objek sebagai menangani masalah pertama, mereka menggunakan jaringan mereka untuk
masalah representasi fitur pembelajaran. Mereka mengusulkan untuk mengidentifikasi topeng dengan fitur yang kuat ketika mereka menggunakan
menggunakan autoencoder denoising bertumpuk yang mempelajari jaringan generatif untuk menghasilkan topeng secara acak. Untuk menangani
representasi fitur umum gambar offline pada data gambar tambahan. masalah kedua, kerugian sensitif biaya pesanan tinggi diusulkan untuk
Untuk pelacakan online, mereka melampirkan lapisan klasifikasi ke bagian mengurangi pengaruh negatif. Rata-rata overlap (EAO) yang diharapkan untuk
encoder. Baik lapisan klasifikasi dan encoder kemudian disesuaikan untuk VITAL mencapai 0,323 dengan peringkat akurasi tinggi (Ar) dan peringkat
beradaptasi dengan perubahan tampilan objek. Metode ini dinamakan deep ketahanan (Rr) masing-masing adalah 1,63 dan 2,17.Xu dkk.(2019) mengusulkan
learning tracker (DLT). metode Seleksi Fitur Grup baru untuk Korelasi Diskriminatif

7
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Gambar 4.Contoh pelacakan visual (Wang, Li dkk.,2015).

Gambar 5.Proses untuk melacak hasil dengan menggunakan tulang punggung DL (Qi dkk.,2016).

Filter (GFS-DCF) berdasarkan pelacakan objek visual. Metode GFS-DCF secara Noh dkk.(2015) diusulkan untuk menggunakan adekonvolusijaringan untuk
signifikan dapat meningkatkan kinerja pelacak DCF yang dilengkapi dengan segmentasi semantik. Jaringan berisi jaringan konvolusi dan jaringan
fitur deep neural network, dengan peningkatan AUC dari 55,49% menjadi dekonvolusi yang terdiri dari beberapa dekonvolusi dan uppoolinglapisan.
63,07%.Lukezic dkk.(2020) mengusulkan pelacak segmentasi single-shot
Dekonvolusi adalah operasi kebalikan dari Konvolusi, sedangkanuppooling
diskriminatif yang disebut D3S. Mereka menggunakan jaringan kustom
adalah operasi kebalikan dari pooling. Keluaran dari jaringan ini adalah peta
semacam itu dan membangun dua modul: GIM untuk segmentasi dan GEM
probabilitas yang menunjukkan kelas-kelas ditetapkan untuk setiap piksel.
untuk pemosisian untuk memecahkan masalah. AUC meningkat hingga
72,8%. Representasi kasar Bounding Box dari target akan mempengaruhi Mereka menggunakan arsitektur jaringan VGG16.
kinerja, gangguan latar belakang, dan ketahanan video yang panjang dalam Hong dkk.(2015) mengusulkan untuk memperlakukan tugas segmentasi semantik
tugas segmentasi video. sebagai dua subtugas: klasifikasi dan segmentasi. Untuk setiap tugas, mereka melatih
CNN terpisah. Lapisan penghubung digunakan untuk menyampaikan informasi kelas
5. Semantik segmentasi
tertentu dari jaringan klasifikasi ke jaringan segmentasi. Ini tidak hanya menggunakan
label kelas tingkat gambar dan tingkat piksel tetapi juga meningkatkan efisiensi
CNN masih merupakan teknik DL yang dominan digunakan dalam segmentasi semantik.
Panjang dkk.(2015) mengusulkan untuk menggunakan CNN untuk memungkinkan pembelajaran segmentasi karena ruang pencarian dikurangi dengan mempelajari peta aktivasi khusus

padat end-to-end yang efisien. Mereka mengganti lapisan terakhir dari vanilla CNN yang kelas. Mereka pertama-tama melatih jaringan klasifikasi menggunakan sejumlah besar
terhubung penuh dengan 1×1 lapisan konvolusi untuk menghasilkan apeta panas. gambar. Setelah itu, mereka memperbaiki

8
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

parameter classifier dan bersama-sama melatih lapisan penghubung dan jaringan Dalam penelitian sebelumnya, banyak sarjana (Dosovitskiy & Brox,
segmentasi menggunakan sejumlah kecil data pelatihan beranotasi kuat. Mereka 2016; Lai dkk.,2017;Ledig dkk.,2017) telah melakukan sejumlah besar
menggunakan VGG16 dan menamai metode mereka sebagaiTerpisahNet. pra-pelatihan dengan banyak gambar realistis untuk meningkatkan
Menghadapi kesulitan bahwa lapisan atas dalam jaringan feedforward tidak kinerja jaringan konvolusi dalam dalam restorasi gambar. Namun,
berubah terhadap faktor,Pinheiro dkk.(2016) mengusulkan metode Sharp-Mask. Ulyanov dkk.(2018) menunjukkan bahwa bahkan tanpa pembelajaran,
Ini menambah jaring feedforward melalui penyempurnaan top-down dan struktur generator gambar konvolusi dapat menangkap sejumlah
menggabungkan dirinya dengan jaringan DeepMask. Eksperimen menunjukkan besar statistik gambar. Metode mereka tidak memerlukan proses
bahwa metode ini berkinerja luar biasa baik dalam kualitas (yaitu, peningkatan pemodelan degradasi dan pra-pelatihan. Namun, ia berkinerja baik di
rata-rata 10%–20% dalam akurasi penarikan) dan kecepatan (yaitu, 50% lebih SR, inpainting, dan denoising. Karena membutuhkan banyak iterasi,
cepat dari jaringan DeepMask asli, katakanlah di bawah 0,8 dtk per gambar), dan pemrosesannya relatif lambat.
dapat juga dapat digunakan dalam tugas pelabelan piksel lainnya. Ia menghadapi kesulitan dalam memperoleh dataset pelatihan di beberapa
Memperluas keberhasilan R-CNN yang lebih cepat pada deteksi objek, bidang, misalnya, data citra biomedis. Karena itu,Krull dkk.(2019)
Dia dkk. (2017) menerapkannya pada tugas segmentasi instance. Selain memperkenalkan NOISE2VOID (N2V), skema pelatihan yang hanya membutuhkan
kotak pembatas, Mask R-CNN menghasilkan peta biner yang menunjukkan akuisisi noise tunggal untuk melatih denoising CNN. Mereka mengusulkan
apakah suatu piksel milik suatu objek atau tidak. Hal ini dicapai dengan jaringan blind-spot, di mana bidang reseptif setiap piksel mengecualikan piksel itu
menggunakan metode yang disebut Realigning RoIPool (RoiAlign), yang sendiri, sehingga mencegahnya mempelajari identitas. Dengan demikian, N2V
mencapai 37.1AP dan 60AP50pada kumpulan data COCO.Chen dkk.(2018) tidak dapat menghilangkan noise dengan baik jika asumsi independensi tidak
mengusulkan DeepLabv3+ untuk menggabungkan keuntungan pengkodean dapat dipenuhi; mereka menunjukkan cara baru untuk melatih jaringan untuk
informasi kontekstual multiskala dari struktur encoder-decoder dan beradaptasi dengan bidang yang memperoleh set data pelatihan resolusi rendah
keuntungan menangkap batas objek yang lebih tajam dari jaringan saraf yang terbatas atau realistis.Kim dkk.(2020) merancang SR bersama berbasis GAN
dalam. Mereka juga belajar dari model Xception untuk mencapai jaringan dan jaringan pemetaan nada terbalik (ITM) (SR-ITM) yang disebut JSI-GAN. Ini
encoderdecoder yang lebih cepat dan lebih kuat. Kinerja test set sebesar terdiri dari tiga subnet khusus tugas: subnet rekonstruksi gambar, subnet
89% di PASCAL VOC 2012 membuktikan metode ini berhasil.Zhang dkk.(2019 restorasi detail, dan subnet peningkatan kontras lokal (LCE). Ketika semua
) menyajikan jaringan segmentasi kelas-agnostik dengan pembelajaran pelatihan gabungan subnet sempurna, kualitas hasil prediksi HR dan rentang
beberapa kali yang disebut Canet,yang mencapai 49,9% meanIoU dinamis tinggi akan meningkat, dengan perolehan PSNR minimal 0,41 dB.
(intersection over union) pada dataset COCO2014. Mekanisme atensi yang
memecahkan masalah k-shot ternyata lebih efektif daripada metode non- Kamera acara berkinerja lebih baik dalam merasakan perubahan intensitas
learnable. Modul optimasi berulang yang secara iteratif menyempurnakan daripada kamera tradisional. Namun, merekonstruksi citra intensitas dari keluaran
hasil prediksi digunakan (lihatGambar 6). event stream masih dalam resolusi rendah (LR), noise, blur, dan tidak realistis.
Selain itu, perlu disebutkan bahwa dengan pendalaman penelitian Wang dkk.(2020) mengusulkan EventSR, pipeline ujung-ke-ujung yang
segmentasi citra di atas, banyak model segmentasi citra medis telah merekonstruksi gambar LR dari aliran peristiwa, meningkatkan kualitas gambar,
diusulkan dan diterapkan dalam domain medis. Ronneberger dkk.(2015) dan mengambil sampel gambar yang disempurnakan. Namun, karena kurangnya
mengembangkan U-Net yang didasarkan pada jaringan yang sepenuhnya gambar GT nyata, pendekatan mereka sebagian besar tidak diawasi, menerapkan
konvolusi. Dengan penggunaan augmentasi data yang kuat, mereka telah pembelajaran permusuhan. Namun, berdasarkan pembelajaran adversarial,
secara efektif meningkatkan akurasi hasil dengan set data pelatihan yang EventSR meningkatkan PSNR menjadi 47,68 dB pada dataset ESIM-RW.
sangat terbatas. Mereka juga mempresentasikan arsitektur berbentuk U,
yang terdiri dari jalur berkontraksi untuk menangkap konteks dan jalur 7. Analisis perkembangan terkini dan tren penelitian masa depan
ekspansi simetris yang memungkinkan pelokalan tepat untuk memecahkan
masalah pemosisian citra medis. Sejak itu, para peneliti telah mengusulkan Penerapan DL di CV menunjukkan perkembangan yang signifikan dalam
varian berdasarkan U-Net, seperti V-Net (Milletari dkk.,2016), UNet++ (Zhou satu dekade terakhir. Sebuah evolusi yang jelas dapat diringkas, yang kami
dkk.,2020).Rai dan Chatterjee(2020) dikembangkan LU-Net oleh CNN dengan anggap tiga tahap secara umum.
lapisan yang lebih sedikit untuk mendeteksi tumor di otak.
Tahap Awal (2012–2016)
Dengan munculnya AlexNet (Krizhevsky dkk.,2012), peneliti
6. Pemulihan gambar
menggunakan CNN untuk klasifikasi gambar pada tahap awal antara 2012
dan 2016. Arsitektur jaringan saraf terus dioptimalkan oleh berbagai isyarat
Dong dkk.(2016) mengembangkan metode untuk gambar super-resolusi
untuk mencapai peningkatan akurasi. Setelah VGG (Simonyan & Zisserman,
(SR), yang dapat mempelajari pemetaan ujung ke ujung antara gambar
2015) diusulkan, peneliti mencabangkan fokus mereka dan mulai
resolusi rendah (LR)/resolusi tinggi (HR). Metode ini didasarkan pada CNN,
mengeksplorasi skenario aplikasi dasar, termasuk deteksi objek, pelacakan
dan memiliki tiga lapisan. Lapisan pertama mengekstrak fitur yang
visual, dan segmentasi semantik. Mengikuti tulang punggung ini, para
dipetakan dari patch LR, dan lapisan kedua digunakan untuk pemetaan dari
peneliti mengembangkan berbagai arsitektur. YOLOV1 (Redmon dkk.,2016)
peta fitur ini ke peta fitur HR. Lapisan terakhir merekonstruksi HR dengan
menggunakan GoogLeNet sebagai kepala referensi dalam pendeteksian
menggabungkan prediksi. Struktur ini ringan dan cukup cepat untuk
objek. laboratorium dalam (Chen dkk.,2015) memodifikasi segmentasi
penggunaan online.
semantik berdasarkan VGG16. Dengan menggunakan ResNet (Dia dkk.,2016
Burger dkk.(2012) menggunakan MLP biasa untuk mempelajari pemetaan dari
), akurasi dalam klasifikasi gambar telah melampaui pengakuan manusia.
gambar bernoise ke gambar bebas derau. Metode ini mengikuti metode denoising
lanjutan lainnya [sepertiDabov dkk.(2007)], dan cocok untuk jenis kebisingan yang
kurang dipelajari secara ekstensif. Tahap Menengah (2016–2019)
Lehtinen dkk.(2018) mengusulkan ide inovatif untuk memulihkan gambar Di tahap tengah, cabang peneliti mulai mengejar parameter ringan
hanya dengan melihat contoh yang rusak tanpa mendapatkan target pelatihan dan jaringan saraf dengan presisi yang cukup, seperti MobileNet V1–V3
yang bersih. Dengan menggunakan ML untuk memetakan pengamatan yang dan ShuffleNet V1-2. Arahan ini telah dilanjutkan ke tahap ketiga,
rusak untuk membersihkan sinyal dan algoritma rekonstruksi sinyal dasar, para seperti RegNet dan GhostNet (Han dkk.,2020). Cabang peneliti lain
peneliti dapat merekonstruksi sinyal dari noise menjadi bersih. Hasil penelitian mulai merambah teknik yang muncul ke berbagai skenario aplikasi.
menunjukkan bahwa target noise telah mencapai rata-rata PSNR (Peak Signal to Misalnya, dalam pelacakan visual, SiamRPN (Li dkk.,2018) didasarkan
Noise Ratio) sebesar 31,74 dB pada data validasi. Jaringan yang dilatih dengan pada ide RPN di RCNN yang lebih cepat, yang dikembangkan untuk
target clean mencapai 31,77 dB, dimana jaringan bekerja dengan baik dalam deteksi objek. Selain itu, dapat meningkatkan akurasi model dengan
merekonstruksi sinyal dari noise ke clean. mengoptimalkan model sebelumnya

9
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Gambar 6.Contoh Segmentasi Semantik (Dia dkk.,2017).

atau memutakhirkan perangkat keras fisik. Sebagai contoh,Dia dkk.(2016) Dari sisi teknis, kami mempertimbangkan dua arah untuk pekerjaan di masa
membandingkan jaringan biasa dan jaringan sisa, dan filosofi jaring VGG terutama depan.
mengilhami garis dasar polos yang mereka gunakan.
(1)Visualisasi Model dan Interpretabilitas: ML, termasuk DL, biasanya
Tahap Terbaru (2019–sekarang) dan Tren Penelitian dianggap sebagai kotak hitam. Desain teknik konvensional untuk CV
Berdasarkan analisis tren literatur dalam 2 tahun terakhir, kami tidak dapat memproses dataset berukuran besar secara efisien.
merangkum empat tren penelitian untuk karya masa depan. Mekanisme pembelajaran end-to-end berbasis DL menawarkan
kesempatan untuk tidak terlalu peduli dengan ukuran dataset yang
(1)Eksplorasi tipe dan arsitektur jaringan: Jenis jaringan
besar. Model DL dapat dilatih dalam kumpulan data yang sangat
cenderung diperkaya. Lebih banyak jenis, seperti jaringan saraf
besar dan kemudian digunakan dalam skenario aplikasi yang sensitif
siam (SNN), jaringan saraf berulang (RNN), jaringan permusuhan
atau tidak dapat diulang, misalnya, bedah medis. Oleh karena itu,
generatif (GAN), dan jaringan kustom, keluar. Pembelajaran
visualisasi dan interpretasi model DL diperlukan bagi pihak luar
semi-diawasi secara bertahap dipusatkan dalam studi terbaru
(misalnya, dokter atau ahli bedah) untuk memahami dasar teknis
untuk skenario CV. Dengan kata lain, kami menyaksikan proses
penentuan. Arah pertama adalah untuk memperkuat visualisasi dan
evolusi dari pembelajaran terawasi menjadi pembelajaran semi
interpretabilitas model DL.
terawasi.
(2)Skalabilitas Model: Banyak model DL telah dilaporkan saat ini, dan
(2)Peningkatan skenario aplikasi yang lebih spesifik: Seiring
strukturnya menjadi rumit. Selain itu, melatih model DL memakan
dengan semakin matangnya teknik CV, skenario aplikasi menjadi
waktu. Dengan demikian, apakah suatu model dapat diskalakan
lebih spesifik, seperti contoh aplikasi GAN dalam segmentasi
dengan mudah menjadi kriteria untuk mengevaluasi model ini.
semantik 3D, pengenalan wajah, pengenalan tindakan, stilasi,
Dengan sumber daya yang terbatas dalam waktu dan data, model
dan pembuatan mesin. Akibatnya, peneliti cenderung
dapat dilatih dengan struktur yang sederhana. Keterlibatan model
memperbaiki teknik dan isyarat yang dikembangkan di CV
dapat diperluas untuk memenuhi lebih banyak kebutuhan, dengan
konvensional dan meningkatkan kinerja mereka untuk subdivisi
tingkat akurasi yang meningkat. Misalnya, Facebook (RegNet) dan
yang lebih spesifik.
Google (EfficientNet) telah mengusulkan model dan metode skalabel
(3)Aplikasi kombinasi CV dengan domain ML lainnya: Studi di CV
mereka untuk desain ruang. Arah ini layak untuk dieksplorasi lebih
cenderung digabungkan dengan domain ML lain untuk aplikasi
lanjut di masa depan.
kombinatorial selain dari sekadar keadaan di bidangnya.
Misalnya, chatbot menggunakan lebih banyak teknik NLP untuk Meskipun menjanjikan dan dalam beberapa kasus, hasil CV yang mengesankan,
meningkatkan akurasi respons (Adamopoulou & Moussiades, tantangan tetap ada dalam menggunakan DL untuk CV. Banyak orang khawatir bahwa
2020), di mana mendeteksi apa yang terjadi dalam percakapan masalah etika dan privasi juga akan menjadi lebih menonjol. Redmon dan Farhadi(2018)
itu sulit. Tantangan besar chatbots adalah untuk berhenti mengembangkan YOLO, karena mereka pikir pekerjaan mereka mungkin
mensimulasikan komunikasi nyata dengan memahami aktivitas termasuk kemungkinan penyalahgunaan. Mereka berkomentar dalam makalah mereka ''
batin pengguna di tingkat berikutnya. Melalui analisis gerak dan visi komputer sudah digunakan untuk dipertanyakan dan sebagai peneliti, kami memiliki
pengenalan ekspresi wajah, chatbots dapat memahami emosi tanggung jawab untuk setidaknya mempertimbangkan bahaya yang mungkin dilakukan
pengguna dari ekspresi mikro dan bahkan menganalisisnya oleh pekerjaan kami dan memikirkan cara untuk menguranginya. Kami berutang banyak
dalam kombinasi teori psikologi. pada dunia''. Ada kekhawatiran yang meningkat atas penggunaan video yang diubah
(4)Menembus CV ke domain aplikasi yang lebih luas: Studi secara online, terutama yang dikenal sebagai Deepfakes (video yang dibuat oleh AI).
tentang aplikasi crossover diperkaya. Studi aplikasi CV telah Bloomberg Quicktake(2018) mengunggah video di YouTube yang menunjukkan
diperluas ke domain medis, seperti deteksi kanker dengan bagaimana proses wajah palsu menggunakan teknologi CV yang membuat orang
segmentasi semantik (Mehrotra dkk.,2020); prediksi industri, khawatir dan khawatir. Faktanya, dengan kode sumber terbuka dan peningkatan
seperti peramalan produksi minyak bumi (Al-Shabandar dkk., kekuatan komputer pribadi, Deepfakes dapat meniru data biometrik dan berpotensi
2021); dan arkeologi, seperti memulihkan surat-surat sejarah ( menipu sistem yang membalas pengenalan wajah, suara, atau vena.
Dambrogio dkk.,2021).

10
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Namun demikian, perlindungan privasi merupakan isu penting dalam Altan, A., Karasu, S., & Zio, E. (2021). Model hybrid baru untuk peramalan kecepatan angin
masyarakat informasi modern.Young dan Quan-Haase(2013) bekerja pada menggabungkan jaringan saraf memori jangka pendek panjang, metode dekomposisi dan
pengoptimal serigala abu-abu.Komputasi Lunak Terapan,100, Pasal 106996.http://dx.doi.
pengungkapan informasi dan strategi perlindungan privasi. Mereka menemukan
org/10.1016/j.asoc.2020.106996.
bahwa pengguna mengungkapkan informasi terlepas dari masalah privasi mereka Alzubaidi, L., Zhang, J., Humaidi, AJ, Al-Dujaili, A., Duan, Y., Al-Shamma, O.,
karena mereka telah melakukan upaya sadar untuk melindungi diri mereka dari Santamaria, J., Fadhel, MA, Al-Amidie, M., & Farhan, L. (2021). Tinjauan pembelajaran
potensi pelanggaran dengan menetapkan siapa yang memiliki akses ke data mendalam: Konsep, arsitektur CNN, tantangan, aplikasi, arah masa depan. Jurnal
mereka. Di sisi lain, upaya akademis berusaha untuk meningkatkan Data Besar,8(1), 53.http://dx.doi.org/10.1186/s40537-021-00444-8. Bloomberg
Quicktake (2018). Semakin sulit untuk menemukan video palsu yang dalam. Diperoleh
perkembangan teknologi, dan beberapa sarjana telah memulai penelitian di
darihttps://www.youtube.com/watch?v=gLoI9hAX9dw(Diakses 10 Juli 2021).
bidang ini (Agarwal, Farid, El-Gaaly et al.,2020;Agarwal, Farid, Fried et al., 2020;Hsu Bochkovskiy, A., Wang, CY, & Liao, H.-YM (2020). YOLOV4: Kecepatan optimal
dkk.,2020). Sementara itu, Facebook meluncurkan kontes Deepfake Detection dan akurasi deteksi objek. pracetak arxivarXiv: 2004.10934[Cs, Eess]. http://arxiv.org/
Challenge (DFDC) dalam kemitraan dengan Microsoft dan akademisi pada tahun abs/2004.10934.
Burger, HC, Schuler, CJ, & Harmeling, S. (2012). Denoising gambar: Bisa polos
2019. Mereka percaya hasil DFDC berkontribusi pada upaya ini dan membangun
jaringan saraf bersaing dengan BM3D?. DiProsiding konferensi IEEE 2012 tentang visi
respons yang kuat terhadap ancaman yang muncul dari Deepfakes secara global (
komputer dan pengenalan pola(hlm. 2392–2399). Pulau Rhode:http: //dx.doi.org/
Kaggle,2019). 10.1109/CVPR.2012.6247952.
Cai, Z., Fan, Q., Feris, RS, & Vasconcelos, N. (2016). Kedalaman multiskala terpadu
8. Concluding remarks jaringan saraf convolutional untuk deteksi objek cepat. DiProsiding konferensi eropa
ke-14 tentang visi komputer (eccv)(hal. 354–370). Belanda:http: //dx.doi.org/
10.1007/978-3-319-46493-0_22.
Untuk skenario aplikasi CV, kami mengidentifikasi delapan teknik DL Chai, J., & Li, A. (2019). Pembelajaran mendalam dalam pemrosesan bahasa alami: Sebuah state-of-the-art
yang muncul dalam makalah ini, termasuk AlexNet, VGGNet, GoogLeNet & survei. DiProsiding konferensi internasional 2019 tentang pembelajaran mesin dan
Inception, ResNet, DenseNet, MobileNets, EfficientNet, dan RegNet. Kami sibernetika (icmlc)(hal. 1–6). Jepang:http://dx.doi.org/10.1109/ICMLC48188.2019.
8949185.
menyelidiki asal-usulnya dan memberikan tinjauan kritis terhadap hasil
Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, AL (2015). semantik
penelitian yang representatif dari tahun 2014. Kami berfokus pada empat segmentasi gambar dengan jaring konvolusi yang dalam dan CRF yang terhubung
tugas utama CV, termasuk pengenalan, pelacakan visual, segmentasi sepenuhnya. pracetak arxivarXiv:1412.7062[Cs].http://arxiv.org/abs/1412.7062.
semantik, dan pemulihan gambar. Kami juga menyelidiki dan menekankan Chen, LC, Zhu, Y., Papandreou, G., Schroff, F., & Adam, H. (2018). Encoder–decoder
kinerja teknik ini di setiap skenario. Kami merangkum perkembangan dengan konvolusi yang dapat dipisahkan untuk segmentasi gambar semantik. Di
Prosiding konferensi eropa ke-15 tentang visi komputer (eccv)(hlm. 801–818). Jerman:
terakhir menjadi tiga tahap dan menggambarkan arah penelitian masa
http://dx.doi.org/10.1007/978-3-030-01234-2_49.
depan dalam hal aplikasi dan teknik. Chollet, F. (2017). Xception: Pembelajaran mendalam dengan konvolusi yang dapat dipisahkan secara mendalam. Di
Prosiding konferensi IEEE 2017 tentang visi komputer dan pengenalan pola (cvpr)(
Pernyataan kontribusi kepenulisan CReditT hlm. 1251-1258). AMERIKA SERIKAT:http://dx.doi.org/10.1109/CVPR.2017.195. Dabov,
K., Foi, A., Katkovnik, V., & Egiazarian, K. (2007). Denoising gambar jarang terjadi
Pemfilteran kolaboratif domain transformasi 3-D.Transaksi IEEE pada Pemrosesan Gambar,
junyi chai:Konseptualisasi, Metodologi, Validasi, Sumberdaya, 16(8), 2080–2095.http://dx.doi.org/10.1109/TIP.2007.901238.
Penulisan – draft asli, Penulisan – review & editing, Supervisi, Dai, J., Li, Y., He, K., & Sun, J. (2016). R-FCN: Deteksi objek melalui berbasis wilayah sepenuhnya
Administrasi proyek, Akuisisi pendanaan.Hao Zeng: Metodologi, jaringan konvolusi. DiProsiding konferensi internasional ke-30 tentang sistem
pemrosesan informasi saraf (nips), Spanyol, (hlm. 379–387).
Penulisan – draf asli.Anming Li:Konseptualisasi, Sumber Daya,
Dambrogio, J., Ghassaei, A., Smith, DS, Jackson, H., Demaine, ML, Davis, G.,
Penulisan – draf asli.Eric WT Ngai:Menulis – meninjau & mengedit, Mills, D., Ahrendt, R., Akkerman, N., van der Linden, D., & Demaine, ED (2021).
Validasi. Membuka sejarah melalui pembukaan virtual otomatis dari dokumen tertutup yang
dicitrakan oleh mikrotomografi sinar-X.Komunikasi Alam,12(1), 1184.http://
Deklarasi kepentingan bersaing dx.doi.org/ 10.1038/s41467-021-21326-w.
Dong, C., Loy, CC, He, K., & Tang, X. (2016). Resolusi super gambar menggunakan
jaringan konvolusi yang dalam.Transaksi IEEE pada Analisis Pola dan Kecerdasan
Para penulis menyatakan bahwa mereka tidak mengetahui adanya persaingan Mesin,38(2), 295–307.http://dx.doi.org/10.1109/TPAMI.2015.2439281. Dosovitskiy, A.,
kepentingan keuangan atau hubungan pribadi yang tampaknya dapat mempengaruhi & Brox, T. (2016). Membalikkan representasi visual dengan convolutional
pekerjaan yang dilaporkan dalam makalah ini. jaringan. DiProsiding konferensi IEEE 2016 tentang visi komputer dan pengenalan
pola (cvpr)(hlm. 4829–4837). AMERIKA SERIKAT:http://dx.doi.org/10.1109/CVPR.2016.
522.
Ucapan Terima Kasih Elad, M., & Aharon, M. (2006). Denoising gambar melalui representasi yang jarang dan berlebihan
tasi atas kamus yang dipelajari.Transaksi IEEE pada Pemrosesan Gambar,15(12),
Kami berterima kasih kepada Pemimpin Redaksi, Editor Rekanan, dan tiga 3736–3745.http://dx.doi.org/10.1109/TIP.2006.881969.
Fu, C.-Y., Liu, W., Ranga, A., Tyagi, A., & Berg, AC (2017). DSSD: Dekonvolusi
pengulas anonim atas komentar konstruktif mereka yang telah membantu
detektor tembakan tunggal. pracetak arxivarxiv:1701.06659[Cs].http://arxiv.org/abs/
memperbaiki makalah ini secara signifikan. Studi ini didukung secara finansial 1701.06659.
sebagian oleh Hibah Penelitian Perguruan Tinggi dari BNU-HKBU United Gando, G., Yamada, T., Sato, H., Oyama, S., & Kurihara, M. (2016). Penyesuaian mendalam
International College, Cina, dan Pusat Studi Evaluasi dengan Universitas Normal jaringan saraf convolutional untuk membedakan ilustrasi dari foto. Sistem Pakar
Beijing di Zhuhai. dengan Aplikasi,66, 295–301.http://dx.doi.org/10.1016/j.eswa. 2016.08.057.

Girshick, R. (2015). R-cnn cepat. DiProsiding konferensi internasional IEEE tentang


Referensi visi komputer (iccv)(hal.1440–1448). Chili:http://dx.doi.org/10.1109/iccv.2015. 169.

Adamopoulou, E., & Moussiades, L. (2020). Chatbots: Sejarah, Teknologi, dan Aplikasi Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Hirarki fitur yang kaya
tion.Pembelajaran Mesin dengan Aplikasi,2, Pasal 100006.http://dx.doi.org/10. 1016/ untuk deteksi objek yang akurat dan segmentasi semantik. DiProsiding konferensi IEEE 2014
j.mlwa.2020.100006. tentang visi komputer dan pengenalan pola(hal. 580–587). AMERIKA SERIKAT: http://
Agarwal, S., Farid, H., El-Gaaly, T., & Lim, SN (2020). Mendeteksi video deep-fake dx.doi.org/10.1109/CVPR.2014.81.
dari penampilan dan perilaku. DiProsiding lokakarya internasional IEEE 2020 tentang Guo, Y., Liu, Y., Oerlemans, A., Lao, S., Wu, S., & Lew, MS (2016). Pembelajaran mendalam
forensik dan keamanan informasi (wifs)(hal. 1–6). AMERIKA SERIKAT:http://dx.doi.org/10. untuk pemahaman visual: Sebuah tinjauan.Neurocomputing,187, 27–48.http://dx.doi.org/
1109/WIFS49906.2020.9360904. 10.1016/j.neucom.2015.09.116.
Agarwal, S., Farid, H., Fried, O., & Agrawala, M. (2020). Mendeteksi video deep-fake Han, K., Wang, Y., Tian, Q., Guo, J., Xu, C., & Xu, C. (2020). GhostNet: Lebih banyak fitur
dari ketidaksesuaian fonem-viseme. DiProsiding konferensi ieee/cvf 2020 tentang visi dari operasi murah. DiProsiding konferensi ieee/cvf 2020 tentang visi komputer dan
komputer dan lokakarya pengenalan pola (cvprw)(hal. 2814–2822). AMERIKA pengenalan pola (cvpr)(hlm. 1577–1586). AMERIKA SERIKAT:http://dx.doi.org/10.
SERIKAT: http://dx.doi.org/10.1109/CVPRW50498.200.00338. 1109/CVPR42600.2020.00165.
Al-Shabandar, R., Jaddoa, A., Liatsis, P., & Hussain, AJ (2021). Sebuah gerbang yang dalam berulang- Dia, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Masker r-cnn. DiProsiding
sewa jaringan saraf untuk peramalan produksi minyak bumi.Pembelajaran Mesin Konferensi Internasional IEEE 2017 tentang Computer Vision (iccv)(hlm. 2961–2969). Italia:
dengan Aplikasi,3, Pasal 100013.http://dx.doi.org/10.1016/j.mlwa.2020.100013. http://dx.doi.org/10.1109/ICCV.2017.322.

11
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Dia, K., Zhang, X., Ren, S., & Sun, J. (2015). Penyatuan piramida spasial di kedalaman Lin, T.-Y., Dollar, P., Girshick, R., He, K., Hariharan, B., & Belongie, S. (2017).
jaringan konvolusi untuk pengenalan visual.Transaksi IEEE pada Analisis Pola dan Fitur jaringan piramida untuk deteksi objek. DiProsiding konferensi IEEE 2017
Kecerdasan Mesin,37(9), 1904–1916.http://dx.doi.org/10.1109/TPAMI. 2015.2389824. tentang visi komputer dan pengenalan pola (cvpr)(hlm. 936–944). AMERIKA SERIKAT:
http://dx.doi.org/10.1109/CVPR.2017.106.
Dia, K., Zhang, X., Ren, S., & Sun, J. (2016). Pembelajaran sisa yang mendalam untuk gambar Lin, TY, Goyal, P., Girshick, R., He, K., & Dollar, P. (2017). Kehilangan fokus untuk padat
resnet pengakuan. DiProsiding konferensi IEEE 2016 tentang visi komputer dan pengenalan deteksi objek. DiProsiding konferensi internasional ieee 2017 tentang visi komputer
pola (cvpr)(hlm. 770–778). AMERIKA SERIKAT:http://dx.doi.org/10.1109/CVPR. 2016.90. (iccv)(hal. 2999–3007). Italia:http://dx.doi.org/10.1109/iccv.2017.324. Liu, W.,
Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, CY, & Berg, AC (2016).
Hong, S., Noh, H., & Han, B. (2015). Jaringan saraf dalam yang dipisahkan untuk semi- SSD: Detektor multibox tembakan tunggal. DiProsiding konferensi eropa tentang visi
segmentasi semantik yang diawasi. DiProsiding konferensi internasional ke-28 komputer (eccv), Vol. 9905(hlm. 21–37). Belanda:http://dx.doi.org/10.
tentang sistem pemrosesan informasi saraf (nips), Kanada (hlm. 1495-1503). 1007/978-3-319-46448-0_2.
Howard, A., Sandler, M., Chu, G., Chen, L.-C., Chen, B., Tan, M., Wang, W., Zhu, Y., Panjang, X., Deng, K., Wang, G., Zhang, Y., Dang, Q., Gao, Y., Shen, H., Ren, J., Han, S.,
Pang, R., Vasudevan, V., Le, QV, & Adam, H. (2019). Mencari MobileNetV3. DiProsiding Ding, E., & Wen, S. (2020). PP-YOLO: Implementasi pendeteksi objek yang efektif dan
konferensi internasional ieee/cvf 2019 tentang visi komputer (iccv) (hal. 1314-1324). efisien. pracetak arXivarXiv:2007.12099[Cs].http://arxiv.org/abs/2007. 12099.
Korea Selatan):http://dx.doi.org/10.1109/ICCV.2019.00140.
Howard, AG, Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Panjang, J., Shelhamer, E., & Darrell, T. (2015). Jaringan yang sepenuhnya konvolusi untuk semantik

Andreetto, M., & Adam, H. (2017). MobileNets: Jaringan saraf convolutional yang segmentasi. DiProsiding konferensi IEEE 2015 tentang visi komputer dan pengenalan
efisien untuk aplikasi mobile vision. pracetak arXivarXiv: 1704.04861[Cs]. http:// pola (cvpr)(hal. 3431–3440). AMERIKA SERIKAT:http://dx.doi.org/10.1109/cvpr.
arxiv.org/abs/1704.04861. 2015.7298965.
Hsu, C.-C., Zhuang, Y.-X., & Lee, C.-Y. (2020). Berbasis deteksi gambar palsu yang mendalam Lukezic, A., Matas, J., & Kristan, M. (2020). D3S – satu bidikan diskriminatif
pada pembelajaran berpasangan.Ilmu Terapan,10(1), 370.http://dx.doi.org/10.3390/ pelacak segmentasi. DiProsiding konferensi ieee/cvf 2020 tentang visi komputer dan
app10010370. pengenalan pola (cvpr)(hlm. 7131–7140). AMERIKA SERIKAT:http://dx.doi.org/10.
1109/CVPR42600.200.00716.
Huang, J., Chai, J., & Cho, S. (2020). Pembelajaran mendalam di bidang keuangan dan perbankan: A
tinjauan literatur dan klasifikasi.Perbatasan Riset Bisnis di China,14, 1–24. http:// Mehrotra, R., Ansari, MA, Agrawal, R., & Anand, RS (2020). Sebuah transfer belajar-
dx.doi.org/10.1186/s11782-020-00082-6. pendekatan untuk klasifikasi tumor otak berbasis AI.Pembelajaran Mesin dengan
Aplikasi,2, Pasal 100003.http://dx.doi.org/10.1016/j.mlwa.2020.100003. Milletari, F.,
Huang, Y., Cheng, Y., Bapna, A., Firat, O., Chen, D., Chen, M., Lee, H., Ngiam, J.,
Le, QV, & Wu, Y. (2019). Gpipe: Pelatihan jaringan saraf raksasa yang efisien Navab, N., & Ahmadi, S.-A. (2016). V-NET: Saraf konvolusi penuh
jaringan untuk segmentasi citra medis volumetrik. DiProsiding konferensi internasional
menggunakan paralelisme pipa. DiProsiding konferensi ke-33 tentang sistem
pemrosesan informasi saraf (neurips), Vol. 32, Kanada, (hlm. 103-112). keempat tahun 2016 tentang visi 3d (3dv)(hlm. 565–571). AMERIKA SERIKAT:http://dx.doi.
org/10.1109/3DV.2016.79.
Huang, G., Liu, Z., van der Maaten, L., & Weinberger, KQ (2017). Terhubung rapat
Muzammel, M., Salam, H., Hoffmann, Y., Chetouani, M., & Othmani, A. (2020).
jaringan konvolusi. DiProsiding konferensi IEEE 2017 tentang visi komputer dan
AudVowelConsNet: Arsitektur CNN mendalam berbasis tingkat fonem untuk
pengenalan pola (cvpr)(hal. 2261–2269). AMERIKA SERIKAT:http://dx.doi.org/10.1109/
diagnosis depresi klinis.Pembelajaran Mesin dengan Aplikasi,2, Pasal 100005.http: //
CVPR.2017.243.
dx.doi.org/10.1016/j.mlwa.2020.100005.
Kagel (2019). Tantangan deteksi deepfake | kaggle. Diterima darihttps://www.
Noh, H., Hong, S., & Han, B. (2015). Mempelajari jaringan dekonvolusi untuk semantik
kaggle.com/c/deepfake-detection-challenge(Diakses 10 Juli 2021).
segmentasi. DiProsiding konferensi internasional ieee 2015 tentang computer vision
Kim, SY, Oh, J., & Kim, M. (2020). Jsi-gan: Resolusi super gabungan berbasis Gan dan
(iccv)(hlm. 1520–1528). Chili:http://dx.doi.org/10.1109/iccv.2015.178. Pinheiro, PO,
pemetaan nada terbalik dengan filter khusus tugas piksel untuk video uhd hdr.
Lin, T.-Y., Collobert, R., & Dollàr, P. (2016). Belajar untuk memperbaiki objek
Prosiding Konferensi AAI tentang Kecerdasan Buatan, AS,34(07), 11287-11295. http://
segmen. (hal. 75–91). Belanda:http://dx.doi.org/10.1007/978-3-319-46448- 0_5.
dx.doi.org/10.1609/aaai.v34i07.6789.
Krizhevsky, A., Sutskever, I., & Hinton, GE (2012). Klasifikasi imagenet dengan deep
Qi, Y., Zhang, S., Qin, L., Yao, H., Huang, Q., Lim, J., & Yang, MH (2016). Lindung nilai
jaringan saraf konvolusi. DiProsiding konferensi internasional ke-25 tentang sistem
pelacakan mendalam. DiProsiding konferensi IEEE tentang visi komputer dan pengenalan
pemrosesan informasi saraf (nips), Vol. 1, AS (hlm. 1097-1105).
pola (cvpr)(hlm. 4303–4311). AMERIKA SERIKAT:http://dx.doi.org/10.1109/CVPR.2016. 466.
Krull, A., Buchholz, T.-O., & Jug, F. (2019). Noise2Void—Belajar denoising dari
gambar berisik tunggal. DiProsiding konferensi ieee/cvf 2019 tentang visi komputer dan
Radosavovic, I., Kosaraju, RP, Girshick, R., He, K., & Dollar, P. (2020). Merancang
pengenalan pola (cvpr)(hal. 2124–2132). AMERIKA SERIKAT:http://dx.doi.org/10.1109/
ruang desain jaringan. DiProsiding konferensi ieee/cvf 2020 tentang visi komputer
CVPR.2019.00223.
dan pengenalan pola (cvpr)(hlm. 10425-10433). AMERIKA SERIKAT:http://dx.doi.org/
Kumar, A., Walia, GS, & Sharma, K. (2020). Tren terbaru dalam berbasis multicue 10. 1109/CVPR42600.2020.01044.
pelacakan visual: Sebuah tinjauan.Sistem Pakar dengan Aplikasi,162, Pasal 113711.
Rai, HM, & Chatterjee, K. (2020). Deteksi kelainan otak dengan novel lu-net
http://dx.doi.org/10.1016/j.eswa.2020.113711.
model CNN neural dalam dari gambar MR.Pembelajaran Mesin dengan Aplikasi,2,
Lai, W.-S., Huang, JB, Ahuja, N., & Yang, MH (2017). Piramida Laplace dalam Pasal 100004.http://dx.doi.org/10.1016/j.mlwa.2020.100004.
jaringan untuk resolusi super yang cepat dan akurat. DiProsiding konferensi IEEE 2017
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). Anda hanya melihat sekali: Bersatu,
tentang visi komputer dan pengenalan pola (cvpr)(hlm. 5835–5843). AMERIKA SERIKAT: deteksi objek waktu nyata. DiProsiding konferensi IEEE 2016 tentang visi komputer dan
http://dx.doi.org/10.1109/CVPR.2017.618.
pengenalan pola (cvpr)(hlm. 779–788). AMERIKA SERIKAT:http://dx.doi.org/10.1109/
Lapuschkin, S., Binder, A., Montavon, G., Muller, K.-R., & Samek, W. (2016). LRP CVPR.2016.91.
kotak peralatan untuk jaringan saraf tiruan.Jurnal Penelitian Pembelajaran Mesin,17(114), Redmon, J., & Farhadi, A. (2017). YOLO9000: lebih baik, lebih cepat, lebih kuat.Prosiding
1-5,http://jmlr.org/papers/v17/15-618.html. Konferensi IEEE 2017 tentang visi komputer dan pengenalan pola (cvpr), 6517–6525.
Hukum, H., & Deng, J. (2018). CornerNet: Mendeteksi objek sebagai titik kunci berpasangan. Di http://dx.doi.org/10.1109/CVPR.2017.690.
Prosiding konferensi eropa ke-15 tentang computer vision (eccv), Vol. 11218 (hal. Redmon, J., & Farhadi, A. (2018). Yolov3: Peningkatan bertahap. pracetak arXiv
734–750). Jerman:http://dx.doi.org/10.1007/978-3-030-01264-9_45. arXiv:1804.02767.http://arxiv.org/abs/1804.02767.
Ledig, C., Theis, L., Huszár, F., Caballero, J., Cunningham, A., Acosta, A., Aitken, A., Ren, S., Dia, K., Girshick, R., & Sun, J. (2017). R-cnn lebih cepat: Menuju waktu nyata
Tejani, A., Totz, J., & Wang, Z. (2017). Foto-realistis gambar tunggal super-resolusi deteksi objek dengan jaringan proposal wilayah. DiProsiding konferensi IEEE 2017
menggunakan jaringan permusuhan generatif. DiProsiding konferensi IEEE 2017 tentang visi tentang visi komputer dan pengenalan pola (cvpr)(hlm. 6517–6525). AMERIKA
komputer dan pengenalan pola (cvpr)(hlm. 105–114). AMERIKA SERIKAT:http://dx.doi. org/ SERIKAT: http://dx.doi.org/10.1109/TPAMI.2016.2577031.
10.109/CVPR.2017.19. Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Jaringan konvolusi untuk
Lehtinen, J., Munkberg, J., Hasselgren, J., Laine, S., Karras, T., Aittala, M., & Aila, T. segmentasi citra biomedis.Prosiding konferensi internasional ke-18 tentang
(2018). Noise2Noise: Mempelajari restorasi gambar tanpa data bersih. DiProsiding komputasi citra medis dan intervensi berbantuan komputer, Vol. 9351, 234–241.
konferensi internasional ke-35 tentang pembelajaran mesin (icml), Vol. 80, http://dx.doi.org/10.1007/978-3-319-24574-4_28.
(Stockholm SWEDIA) (hlm. 2965-2974). Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, LC (2018). Mobilenetv2:
Li, B., Yan, J., Wu, W., Zhu, Z., & Hu, X. (2018). Pelacakan visual kinerja tinggi Residu terbalik dan kemacetan linier. DiProsiding konferensi IEEE 2018 tentang visi
dengan jaringan proposal wilayah siam. DiProsiding konferensi ieee/cvf 2018 tentang visi komputer dan pengenalan pola (cvpr)(hal.4510–4520). AMERIKA SERIKAT:http://dx.
komputer dan pengenalan pola (cvpr)(hal.8971–8980). AMERIKA SERIKAT:http://dx. doi.org/ doi.org/10.109/CVPR.2018.00474.
10.109/CVPR.2018.00935. Simonyan, K., & Zisserman, A. (2015). Jaringan konvolusi yang sangat dalam untuk
Lienhart, R., & Maydt, J. (2002). Serangkaian fitur seperti haar yang diperluas untuk rapid pengenalan gambar skala. DiProsiding konferensi internasional ke-3 tentang representasi
deteksi objek. DiProsiding. Prosiding konferensi internasional tentang pengolahan pembelajaran (iclr2015), AS.
citra, Vol. 1(hlm. I–900–I–903). AMERIKA SERIKAT:http://dx.doi.org/10.1109/ICIP.2002. Lagu, Y., Ma, C., Wu, X., Gong, L., Bao, L., Zuo, W., Shen, C., Lau, RW, & Yang, M.
1038171. H. (2018). Vital: Pelacakan visual melalui pembelajaran permusuhan. DiProsiding konferensi
Lin, M., Chen, Q., & Yan, S. (2014). Jaringan dalam jaringan. DiProsiding 2014 IEEE tentang visi komputer dan pengenalan pola (cvpr)(hlm. 8990–8999). AMERIKA SERIKAT:
konferensi internasional tentang representasi pembelajaran (iclr), Kanada. http://dx.doi.org/10.1109/CVPR.2018.00937.

12
J. Chai, H. Zeng, A. Li dkk. Pembelajaran Mesin dengan Aplikasi 6 (2001) 100134

Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. 2017. Inception-v4, inception-resnet Xu, T., Feng, Z.-H., Wu, X.-J., & Kittler, J. (2019). Pemilihan fitur grup bersama dan
dan dampak sisa koneksi pada pembelajaran. DiProsiding konferensi aai ketiga pembelajaran filter diskriminatif untuk pelacakan objek visual yang kuat. DiProsiding
puluh satu tentang kecerdasan buatan, AS (hlm. 4278–4284). konferensi internasional ieee/cvf 2019 tentang visi komputer (iccv)(hlm. 7949–7959).
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Korea Selatan):http://dx.doi.org/10.1109/ICCV.2019.00804.
Vanhoucke, V., & Rabinovich, A. (2015). Pergi lebih dalam dengan konvolusi. Di Xu, S., Wang, J., Shou, W., Ngo, T., Sadick, A.-M., & Wang, X. (2020). Visi komputer
Prosiding konferensi IEEE 2015 tentang visi komputer dan pengenalan pola (cvpr)( teknik dalam konstruksi: Sebuah tinjauan kritis.Arsip Metode Komputasi dalam
hal. 1–9). AMERIKA SERIKAT:http://dx.doi.org/10.1109/CVPR.2015.7298594. Szegedy, Rekayasa,http://dx.doi.org/10.1007/s11831-020-09504-3, 2020.
C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Memikirkan kembali Yang, Z., Liu, S., Hu, H., Wang, L., & Lin, S. (2019). RepPoints: Representasi kumpulan titik
arsitektur awal untuk visi komputer. DiProsiding konferensi IEEE 2016 tentang visi untuk deteksi objek. DiProsiding konferensi internasional ieee/cvf 2019 tentang visi
komputer dan pengenalan pola (cvpr)(hlm. 2818–2826). AMERIKA SERIKAT: http:// komputer (iccv)(hlm. 9656–9665). Korea Selatan):http://dx.doi.org/10.1109/
dx.doi.org/10.1109/CVPR.2016.308. ICCV.2019.00975.
Tan, M., & Le, Q. (2019). Efficientnet: Memikirkan kembali penskalaan model untuk convolutional Ye, L., Liu, Z., & Wang, Y. (2020). Jaringan LSTM konvolusi ganda untuk merujuk
jaringan saraf. DiProsiding konferensi internasional ke-36 tentang pembelajaran segmentasi gambar.Transaksi IEEE di Multimedia,22(12), 3224–3235.http: //
mesin (icml), Vol. 97, AS (hal. 6105-6114). dx.doi.org/10.1109/TMM.2020.2971171.
Tian, Z., Shen, C., Chen, H., & Dia, T. (2019). Fcos: Objek satu tahap yang sepenuhnya convolutional Muda, AL, & Quan-Haase, A. (2013). Strategi perlindungan privasi di facebook:
deteksi. DiProsiding konferensi internasional ieee/cvf 2019 tentang visi komputer (cvpr)(hlm. Paradoks privasi internet ditinjau kembali.Informasi, Komunikasi & Masyarakat,16(4),
9626–9635). AMERIKA SERIKAT:http://dx.doi.org/10.1109/iccv.2019.00972. Ulyanov, D., 479–500.http://dx.doi.org/10.1080/1369118X.2013.777757.
Vedaldi, A., & Lempitsky, V. (2018). Gambar dalam sebelumnya.Internasional Yun, S., Choi, J., Yoo, Y., Yun, K., & Choi, JY (2017). Jaringan keputusan tindakan untuk
Jurnal Visi Komputer,128(7), 1867–1888.http://dx.doi.org/10.1007/s11263- pelacakan visual dengan pembelajaran penguatan mendalam. DiProsiding konferensi IEEE
020-01303-4. 2017 tentang visi komputer dan pengenalan pola (cvpr)(hal. 1349–1358). AMERIKA SERIKAT:
Viola, P., & Jones, M. (2001). Deteksi objek cepat menggunakan kaskade sederhana http://dx.doi.org/10.1109/CVPR.2017.148.
fitur. DiProsiding konferensi masyarakat komputer IEEE 2001 tentang visi komputer dan Zeiler, MD, & Fergus, R. (2014). Memvisualisasikan dan memahami jaringan konvolusi
pengenalan pola (cvpr). AMERIKA SERIKAT:http://dx.doi.org/10.1109/CVPR.2001.990517. bekerja. DiProsiding konferensi eropa ke-13 tentang computer vision (eccv), Vol. 8689
Walia, GS, & Kapoor, R. (2016). Kemajuan terbaru pada pelacakan objek multicue: A (hlm. 818–833). Swiss:http://dx.doi.org/10.1007/978-3-319-10590-1_ 53.
survei.Ulasan Kecerdasan Buatan,46(1), 1-39.http://dx.doi.org/10.1007/
s10462-015-9454-6. Zhang, C., Lin, G., Liu, F., Yao, R., & Shen, C. (2019). Canet: Segmen kelas-agnostik
Wang, L., Kim, TK, & Yoon, KJ (2020). Acarar: Dari acara asinkron ke jaringan mental dengan penyempurnaan berulang dan pembelajaran sedikit-sedikit yang
rekonstruksi gambar, restorasi, dan resolusi super melalui pembelajaran permusuhan ujung penuh perhatian. Di Prosiding konferensi ieee/cvf 2019 tentang visi komputer dan
ke ujung. DiProsiding konferensi ieee/cvf 2020 tentang visi komputer dan pengenalan pola pengenalan pola (cvpr)(hal. 5212–5221). AMERIKA SERIKAT:http://dx.doi.org/10.1109/
(cvpr)(hal.8312–8322). AMERIKA SERIKAT:http://dx.doi.org/10.1109/cvpr42600. 2020.00834. cvpr.2019.00536. Zhang, K., Liu, Q., Wu, Y., & Yang, MH (2016). Pelacakan visual yang kuat melalui
jaringan konvolusi tanpa pelatihan.Transaksi IEEE pada Pemrosesan Gambar, 25(4),
Wang, N., Li, S., Gupta, A., & Yeung, DY (2015). Mentransfer hierarki fitur yang kaya 1779-1792.http://dx.doi.org/10.1109/TIP.2016.2531283.
untuk pelacakan visual yang kuat. pracetak arXivarXiv:1501.04587 http://arxiv.org/abs/ Zhao, Z., Jiao, L., Zhao, J., Gu, J., & Zhao, J. (2017). Jaringan kepercayaan mendalam yang diskriminatif
1501.04587. untuk klasifikasi citra SAR resolusi tinggi.Pengenalan Pola,61, 686–701. http://
Wang, L., Liu, T., Wang, G., Chan, KL, & Yang, Q. (2015). Pelacakan video dx.doi.org/10.1016/j.patcog.2016.05.028.
menggunakan fitur hierarki yang dipelajari.Transaksi IEEE pada Pemrosesan Gambar,24(4), Zhou, Z., Siddiquee, MMR, Tajbakhsh, N., & Liang, J. (2020). Unet++: Mendesain ulang
1424–1435.http://dx.doi.org/10.1109/TIP.2015.2403231. lewati koneksi untuk mengeksploitasi fitur multiskala dalam segmentasi gambar.Transaksi
Wang, N., & Yeung, DY (2013). Mempelajari representasi gambar kompak yang mendalam untuk IEEE pada Pencitraan Medis,39(6), 1856–1867.http://dx.doi.org/10.1109/TMI.2019. 2959609.
Pelacakan visual. DiProsiding konferensi tahunan ke-27 tentang sistem pemrosesan
informasi saraf, Vol. 1, AS (hal. 809-817). Zhou, X., Wang, D., & Krähenbühl, P. (2019). Objek sebagai titik. pracetak arXivarXiv:
Xie, J., Xu, L., & Chen, E. (2012). Denoising gambar dan pengecatan dengan deep neural 1904.07850[Cs].http://arxiv.org/abs/1904.07850.
jaringan.Kemajuan dalam Sistem Pemrosesan Informasi Saraf,25, 341–349.

13

Anda mungkin juga menyukai