YOLOv3-darknet Dengan Adaptive Clustering Anchor

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.
com
YOLOv3-darknet dengan Adaptive Clustering Anchor

Box untuk Deteksi Sampah di Sanitasi Cerdas
Wei Cui Wei Zhang, Juli Hijau

Sekolah Teknik dan Otomasi Mekatronika Pusat Penelitian Teknologi Lingkungan Shanghai
Universitas Shanghai Shanghai, Cina
Shanghai, Cina zhangwei432@msn.com
18301926762@163.com
Xiang Yao
Xu Zhang Sekolah Teknik dan Otomasi Mekatronika
Sekolah Teknik dan Otomasi Mekatronika Universitas Shanghai
Universitas Shanghai Shanghai, Cina
Shanghai, Cina pokerfaceryx@163.com
xuzhang@shu.edu.cn
AbstrakDalam beberapa tahun terakhir, karena kebutuhan masyarakat tenaga kerja dan sumber daya material. Selain itu dipengaruhi oleh
akan lingkungan hidup semakin tinggi, banyak negara telah memasukkan berbagai faktor eksternal seperti lalu lintas, cuaca, liburan personil
perlindungan lingkungan ke dalam undang-undang yang relevan. Cara dan jam kerja. Bidang penyehatan lingkungan sangat membutuhkan
menemukan dan membersihkan sampah secara tepat waktu sangatlah cara pendeteksian sampah yang murah dan berefisiensi tinggi.
penting. Pencarian sampah secara manual tidak hanya memakan waktu,
tetapi juga membutuhkan banyak tenaga. Pembelajaran mendalam telah
mencapai hasil yang baik di bidang deteksi objek dan segmentasi semantik
dengan kemampuan yang baik untuk mengidentifikasi fitur-fitur yang
tidak pasti ini seperti halnya sampah. Dalam makalah ini, kami
mengabadikan citra sampah di jalan secara real time dengan kendaraan
sanitasi. Model YOLOv3-darknet yang didasarkan pada kotak jangkar
pengelompokan adaptif digunakan untuk deteksi sampah. Pelatihan
konfrontasi multi-kategori dilakukan pada objek yang sering salah
terdeteksi. Dikombinasikan dengan perangkat rentang tambahan lainnya,
informasi lintang dan bujur sampah ditentukan, sehingga sampah dapat
dibersihkan dengan target. Eksperimen menunjukkan bahwa model kami
telah mencapai hasil yang baik dalam deteksi sampah. Waktu deteksi satu
gambar pada GTX1080ti adalah 60ms.
Gambar 1. Sampah di jalan

Kata kunci: Deteksi sampah; Pengelompokan adaptif; Kotak jangkar;
YOLOv3-darknet; Pelatihan konfrontasi Dibandingkan dengan benda biasa, kesulitan utama dalam
mendeteksi sampah adalah definisi sampah yang sangat luas.
Misalnya pada pemandangan trotoar perkotaan, kantong plastik
AKUPENDAHULUAN
di tanah adalah sampah, tumpukan bahan buangan adalah
Baik di kota maupun di lautan, perlindungan lingkungan selalu menjadi topik sampah, bahkan mobil yang dibuang di tempat parkir
perhatian. Beberapa negara telah memperkenalkan undang-undang dan peraturan terbengkalai juga sampah. Meskipun semuanya sampah,
yang relevan untuk mengimbau warganya agar peduli terhadap lingkungan. Beberapa perbedaan warna, tekstur, dan geometri sangat besar, mencakup
kota bahkan telah memasukkan sampah sembarangan ke dalam undang-undang yang berbagai kategori objek. Kesulitan utama lainnya adalah bahwa
melarang perilaku tidak beradab dengan hukuman. Namun, membuang sampah sampah adalah konsep subyektif, berbeda dengan pejalan kaki,
sembarangan masih berulang. Biro sanitasi dan perusahaan kebersihan perlu wajah, dan objek lain yang memiliki definisi yang jelas. Untuk
mengeluarkan banyak tenaga dan sumber daya untuk mencari dan membersihkan sampah, bahkan objek yang sama, mungkin memiliki hasil
sampah. Karena arus orang terus berlanjut sepanjang hari, area yang sama penilaian yang berbeda dalam situasi yang berbeda. Selain itu,
membutuhkan petugas kebersihan untuk memeriksanya berulang kali. Beberapa ukuran sampah akan sangat berubah. Ukuran sampah besar dan
daerah memiliki banyak penumpukan sampah, dan beberapa daerah memiliki sedikit sampah kecil bisa beberapa puluh kali lebih buruk. Sebenarnya,
atau bahkan tidak ada sama sekali. Di Cina, sebagian besar pembersih menggunakan Ada lebih banyak sampah kecil di jalan kota, jadi penting untuk
mata telanjang dan becak untuk mencari dan membersihkan sampah, sudut mendeteksi sampah ukuran kecil secara efektif. Tiga kesulitan di
pandangnya sangat terbatas, dan kecepatannya sangat lambat. Metode deteksi manual atas menimbulkan tantangan besar untuk pendeteksian sampah
ini membutuhkan banyak hal berbasis citra.
978-1-7281-3584-7/19/$31,00 ©2019 IEEE
220
Penggunaan berlisensi resmi terbatas pada: Auckland University of Technology. Diunduh pada 02 Juni 2020 pukul 16:43:23 UTC dari IEEE Xplore. Pembatasan berlaku.
Algoritme pengenalan gambar tradisional mengekstraksi fitur tulang punggung jaringan, membuang mode RPN, deteksi gambar tunggal
berdasarkan gradien dan titik fitur dengan SVM dan hutan acak dapat mencapai 60ms;(2) Menggunakan kotak jangkar pengelompokan adaptif,
untuk melatih dan mengklasifikasikan objek tertentu. Namun, dimungkinkan untuk mengklasifikasikan dan mengembalikan sampah dengan
sampah bukanlah jenis objek, tetapi istilah umum untuk semua lebih akurat;(3) Model kami tidak hanya untuk informasi latar belakang yang
barang yang dibuang tanpa informasi karakteristik khusus. Sulit sederhana, tetapi juga untuk deteksi sampah di lingkungan yang kompleks;(4)
untuk menyelesaikan identifikasi dan deteksi sampah dengan cara Ini dapat secara efektif mendeteksi sampah berukuran kecil;(5) Gunakan
tradisional. Pembelajaran mendalam memiliki kemampuan yang informasi multi-kategori untuk pelatihan konfrontasi untuk mengurangi
kuat untuk mengekstraksi dan membedakan fitur. Menggunakan kesalahan klasifikasi sampah.
pembelajaran mendalam untuk deteksi dan diskriminasi sampah
telah menjadi pilihan yang baik. Mittal G[1] membuka metode II. DEEPLPENGHASILANMODEL UNTUKGARBAGEDETEKSI
deteksi sampah pembelajaran mendalam, yang disematkan di
ponsel melalui jaringan konvolusi mendalam untuk mendeteksi A. Model YOLO Awal
sampah di jalan. Namun, karena adopsi struktur jaringan,
Algoritma YOLO awal [15] adalah algoritma deteksi objek satu
kemampuan ekstraksi fitur tidak terlalu kuat. Model' Kemampuan
tahap yang hanya membutuhkan satu gambar untuk
deteksi sampah relatif lemah, dan akurasi pendeteksiannya masih
menampilkan hasil yang sesuai. Ide utama dari algoritme ini
87,9%. Selain itu, metode ini didasarkan pada APP ponsel untuk
adalah untuk membagi gambar menjadi sel grid SxS, dan
mengidentifikasi dan menemukan dan bidang pandang sangat
kemudian proses jaringan konvolusi untuk menghasilkan data
terbatas yang berarti tidak dapat memenuhi persyaratan operasi
dimensi SxSx(Bx5+C). Di mana S adalah jumlah sel kisi yang
sanitasi. Wei [2] mengusulkan metode pendeteksian sampah
dibagi, S=7 di kertas asli, dan B adalah jumlah bingkai deteksi
dengan jaringan saraf konvolusional regional berkecepatan tinggi
yang dihasilkan oleh setiap sel kisi. Di kertas, B = 2. Lima mewakili
yang didasarkan pada gagasan Faster RCNN [3]. Tulang
empat parameter koordinat (x, y, w, h) dari setiap frame deteksi
punggung modelnya adalah ZF-Net [4], dan ini adalah dua tipikal
(masing-masing sesuai dengan koordinat pusat dan lebar dan
-model panggung. Secara umum, jaringan dua tahap perlu
tinggi frame deteksi) dan kepercayaan. C adalah singkatan dari
melakukan dua operasi klasifikasi dan regresi yang lebih lambat,
kategori, untuk VOC_2007, C=20, sehingga hasil akhirnya adalah
tetapi akurasinya lebih tinggi. Namun, Wei menggunakan ZF-Net
tensor 7x7x30.
daripada ResNet [5] dengan kemampuan ekstraksi fitur yang kuat
sebagai tulang punggung yang akan menyebabkan hilangnya
akurasi yang besar. Dan karena pendekatan dua tahap, ZF-Net'
keuntungan kecepatan juga berkurang. Meskipun post-sequence
menggunakan teknik pelatihan seperti pembelajaran migrasi [6],
namun tetap tidak dapat menjamin akurasi dan kecepatan secara
bersamaan. Keakuratan 100 set tes hanya 89%. Rad MS [7]
menggunakan ide OverFeat [8] untuk mengidentifikasi botol,
daun, puntung rokok, dan sampah lainnya melalui kamera yang
dipasang di kendaraan, yang lebih baik untuk pengenalan target
kecil. Model menggantikan AlexNet [9] dan beralih ke GoogleNet
[10] dengan lebih banyak kemampuan ekstraksi fitur. Namun,
metode ini hanya untuk kasus di mana kamera dan ground tetap
sejajar. Adegan sebenarnya seringkali tidak sesederhana itu, kita
harus mempertimbangkan lingkungan rumit di sekitarnya.
Namun, metode Over-Feat tidak terlalu bagus untuk pengenalan
sampah dalam adegan yang kompleks. Ying Wang [11]
mengusulkan metode deteksi limbah berdasarkan Faster RCNN, Gambar 2. Metode YOLO untuk deteksi dan klasifikasi
yang menetapkan data pelatihan melalui penggabungan data dan
Namun, struktur YOLO memang unggul dalam kecepatan,
perluasan data. Namun, karena adopsi struktur ResNet dan RPN
kecepatannya 45fps, namun akurasi pemosisiannya tidak tinggi. Efek
yang lengkap, kecepatannya sangat berkurang, dan kinerja real-
deteksi YOLO pada objek target kecil sangat buruk, akar penyebabnya
time tidak dijamin.
adalah ekstraksi fitur yang lemah dan terlalu sedikit kotak jangkar.
Secara umum, model deteksi dua tahap lambat, tetapi YOLOv2 telah ditingkatkan berdasarkan YOLO, terutama dalam
kemampuan ekstraksi fitur jaringannya kuat dan akurasinya tinggi. penggunaan darknet19[16] untuk tulang punggung dan penggunaan
Model satu tahap menggunakan model ringan seperti MobileNet [12] Normalisasi Batch [17] sebelum input dari setiap lapisan jaringan.
dan SqueezeNet [13] sebagai tulang punggung, yang lebih cepat, Pada saat yang sama, YOLOv2 mengadopsi lebih banyak kotak
tetapi kemampuan ekstraksi fiturnya lemah dan akurasinya rendah. jangkar, mengelompokkan label lokasi dari data pelatihan,
Deteksi sampah tidak hanya membutuhkan akurasi dan kecepatan menginisialisasi hasil pengelompokan ke dalam kotak jangkar. RCNN
tinggi, tetapi juga perlu beradaptasi dengan adegan dalam berbagai dan SSD yang lebih cepat [18] menunjukkan bahwa lebih banyak
situasi rumit dengan efek deteksi yang baik untuk sampah berukuran kotak skala memiliki peningkatan akurasi yang lebih besar.
kecil dan besar. Menanggapi situasi ini, kami mengusulkan algoritma
deteksi sampah YOLOv3-darknet [14] berdasarkan kotak jangkar B. YOLOv3-darknet dengan Kotak Jangkar Pengelompokan Adaptif
pengelompokan adaptif. Poin inovasi dan kontribusi dari algoritme Model pendeteksian sampah yang diadopsi semakin ditingkatkan berdasarkan
memiliki aspek berikut: (1) Mengadopsi darknet53 dengan YOLOv2. Kami menggunakan darknet-53 dengan kemampuan ekstraksi fitur yang lebih
kemampuan ekstraksi fitur yang kuat sebagai kuat sebagai tulang punggung dan menambahkan multi-
221
peta fitur skala untuk prediksi fusi. Setiap sel kisi mengadopsi lebih banyak sel jaringan th bertanggung jawab untuk prediksi ini. (x, y, w, h)
kotak jangkar, dan mengatur ulang kotak jangkar berdasarkan data dinormalisasi menjadi 0 dan 1, mengacu pada rasio ukuran dan
pelatihan yang disesuaikan. koordinat gambar asli.
Klasifikasi sampah lebih dari sekedar satu label di bidang YOLOv3-darknet menggunakan prediksi multi-skala, dan fitur-fitur
sanitasi. Misalnya, sampah rumah tangga mungkin juga dalam dipadukan dengan upsampling dengan fitur-fitur dangkal untuk
merupakan sampah yang bocor pada saat yang sama, sehingga menghindari hilangnya fitur. Selain itu, setiap sel kisi sesuai dengan
klasifikasi label tunggal asli perlu ditingkatkan menjadi klasifikasi beberapa kotak jangkar. Kami mengelompokkan data pelatihan untuk
multi-label saat memilih prediksi kategori. Oleh karena itu, mendapatkan kotak jangkar baru. Ukuran kotak ini dapat mencerminkan
struktur jaringan kami menggantikan lapisan softmax untuk informasi distribusi ukuran sampah yang sebenarnya. Metode kotak
multiklasifikasi label tunggal dengan lapisan regresi logis untuk jangkar dapat beradaptasi dengan ukuran objek yang berbeda, dan
multiklasifikasi multilabel. Lapisan regresi logistik terutama deteksi sampah target kecil sangat ditingkatkan.
diimplementasikan oleh fungsi sigmoid, yang dapat membatasi
Kotak Jangkar Pengelompokan Adaptif.Setiap sel kisi di setiap
output ke kisaran 0 hingga 1. Oleh karena itu, ketika sebuah
lapisan peta fitur skala yang diatur dalam YOLOv3-darknet berisi 9
gambar dikenakan ekstraksi fitur dan jenis output tertentu
kotak jangkar. Berdasarkan gambar YOLOv3-608, ukuran kotak
dibatasi oleh fungsi sigmoid. Jika nilainya lebih besar dari 0,5,
jangkar adalah [(10,13), (16,30), (33, 23), (30, 61), (62, 45), (59, 119 ),
maka itu milik kelas itu.
(116,90), (156, 198), (373, 326)]. Namun, karena klaster YOLOv3
berkoordinasi pada kumpulan data VOC dan COCO, kumpulan data
1 sumber terbuka ini tidak sama dengan kumpulan data sampah yang
F(X) kami gunakan. Langsung menggunakan kotak jangkar yang
1eX disediakan oleh penulis asli tidak akan terlalu efektif. Di sini,
berdasarkan data pelatihan kami, kami melakukan pengelompokan k-
Untuk regresi koordinat, YOLOv3-darknet memprediksi lima nilai means, dan jenis kotak jangkar pengelompokan adalah 9. Perhatian,
untuk setiap kotak pembatas, yaituTX,Ty,Tw,TH,THai: jangan langsung menggunakan data empat dimensi (x, y, w, h) dari
kotak pemosisian untuk pengelompokan. Karena jika kita
BX (TX) CX menggunakan keempat jenis data ini digunakan secara langsung,
kesalahan yang dihasilkan oleh kotak besar dalam pengelompokan
By (Ty) Cy akan jauh lebih besar daripada yang kecil. Dan yang kami harapkan
adalah kesalahannya tidak banyak berhubungan dengan ukuran
Bw PweTw kotak. Fungsi jarak berikut ditentukan oleh IOU sehingga kesalahan
tidak bergantung pada ukuran kotak:
BH PHeTH
D(kotak,pusat massa) 1surat hutang(kotak,pusat massa)
Pr(obyek)*surat hutang(B,obyek) (THai)
Kami memilih sum of the squared error (SSE) sebagai
Di mana (BX,B, y,B
Bw)adalah
H
perkiraan koordinat, fungsi tujuan cluster, dan juga mengukur indikator hasil
clustering yang berbeda:
(TX,T,yT, wTH) adalah jumlah yang perlu dipindahkan dan
k
diubah, mewakili keyakinan. Ketika data dihasilkan, label posisi
dinormalisasi secara seragam dan perhitungan error tidak
SSE dist(X,CSaya)
Saya1x CSaya
langsung dilakukan pada koordinat posisi yang berdimensi besar.
Dengan menggabungkan kehilangan pemosisian dan kehilangan Melalui k-means clustering, diperoleh 9 jenis anchor box
klasifikasi, fungsi kerugian keseluruhan dari YOLOv3-darknet (berdasarkan YOLOv3-608), yaitu [(24,22), (52,54), (76,69),
adalah sebagai berikut: (90,114), (126, 82) , (174, 62), (160, 130), (230, 94), (288, 150)].
Kami mencoba RetinaNet[19], DSSD[20] dan YOLOv3-darknet.
S2 B RetinaNet-101-800 dan YOLOv3-608 hampir sama dalam hal
1obj X' 2
(y y' 2
coord aku j
(XSaya Saya) Saya Saya)
akurasi pemosisian. Namun dalam hal kecepatan, YOLOv3-
saya=0 j=0
darknet hampir empat kali lebih cepat dibandingkan
S2 B RetinaNet-101-800. DSSD513 tidak dominan dalam hal
coord
1obj (aku j
wSaya w'Saya)2
( HSaya w'
Saya)2
kecepatan maupun waktu, hal ini dikarenakan desain encoder
saya=0 j=0 dan decoder backbone tidak memiliki kemampuan ekstraksi
S2 B S2 B fitur yang cukup dan inferensi DSSD513 juga lambat pada
1obj C'Saya
)2 1noobj
(CSaya C' Saya)2
banyak perhitungan. Mengingat modelnya perlu di-porting ke
aku j (CSaya noobj
mobil, kami mencoba menggunakan MobileNet sebagai
aku j
Saya0J0 Saya0J0
tulang punggungnya. Namun setelah pengujian, MobileNet
S2
1obj (PSaya(C) P' (C))2
lebih lambat dari Darknet53 dalam hal kecepatan dan
Saya Saya
akurasi.
Saya0 c kelas
Dimana 1Saya
objmewakili pusat objek yang muncul di sel kisi i, dan 1obj
menunjukkan bahwa kotak jangkar ke-j di kotak jangkar ke-i

aku j
222
TABEL I. Kinerja berbagai model situasi di daerah visi komputer belum. Dengan mensimulasikan
gambar iluminasi kuat dan menambahkan data iluminasi kuat ke
Model Kereta Tes peta FPS
dalam kumpulan data, kita dapat mengatasi pengaruh iluminasi
SSD321 Kereta api COCO test-dev 45.4 16 kuat sampai batas tertentu.
DSSD321 Kereta api COCO test-dev 46.1 12
R-FCN Kereta api COCO test-dev 51.9 12 IV. THUJANDETAIL
SSD513 Kereta api COCO test-dev 50.4 8 Kami menggunakan GTX1080ti untuk melatih model dengan ukuran
batch 64, momentum 0,9, dan penurunan bobot 0,005. Mengadopsi
DSSD513 Kereta api COCO test-dev 53.3 6
metode penyesuaian kecepatan pembelajaran secara bertahap, kecepatan
FPN FRCN Kereta api COCO test-dev 59.1 6 pembelajaran awal diatur ke 0,001. Ketika mendapatkan 30000 langkah,
Retinanet-50-500 Kereta api COCO test-dev 50.9 14 kecepatan pembelajaran diatur ke 0,1 kali dari kecepatan pembelajaran
awal dan 0,01 kali setelah 50.000 langkah. Ketika ukuran data pelatihan
Retinanet-101-500 Kereta api COCO test-dev 53.1 11
lebih besar dari ukuran masukan model YOLOv3, gambar akan di-
Retinanet-101-800 Kereta api COCO test-dev 57.5 5 upampling menjadi 608x608.
YOLOv3-320 Kereta api COCO test-dev 51.5 45
YOLOv3-416 Kereta api COCO test-dev 55.3 35 VEPERCOBAAN
YOLOv3-608 Kereta api COCO test-dev 57.9 20 Kami menggunakan 12.000 gambar untuk pelatihan dan 8000
gambar untuk pengujian. Gambar uji mencakup 4.000 gambar
AKU AKU AKU. DATAPROSES dengan sampah dan 4.000 gambar tanpa sampah. Selain model
YOLOv3, kami melakukan beberapa eksperimen komparatif.
A. Pengumpulan Data Termasuk perbandingan antara model dua tahap dan satu tahap,
serta perbandingan model satu tahap yang berbeda. Untuk
Kami mengumpulkan data sampah berdasarkan jalan-jalan di
model dua tahap, kami memilih Faster RCNN. Untuk model satu
Shanghai, terutama di Distrik Jiading, Distrik Changning, Distrik
tahap, kami memilih tiga model yaitu RetinaNet, DSSD, dan
Hongkou, dan Distrik Yangpu. Pada tahap awal, pemotretan multi-
YOLOv3. Ambil akurasi dan tingkat penarikan untuk
skala dan multi-sudut dilakukan dengan ponsel. Peningkatan data
mengevaluasi kinerja.
memang diperlukan, karena data sampah sulit dikumpulkan, apalagi
di kota seperti Shanghai. Kemudian, kami membangun platform
A. Model Dua Tahap Lebih Baik Daripada Model Satu Tahap?
cloud kami sendiri dan mengumpulkan gambar di jalan melalui
kamera di gimbal, seperti kendaraan pengumpul data peta Baidu. Kami bereksperimen dengan model Faster RCNN dan
Kami mengumpulkan sekitar 12.000 gambar sebagai set pelatihan, membandingkannya dengan YOLOv3-darknet. RPN memang
dan 8.000 lainnya sebagai set pengujian. Di sini, kami mendefinisikan meningkatkan tingkat pengenalan keseluruhan model sampai batas
tiga jenis sampah, yaitu sampah rumah tangga, sampah dekorasi, tertentu, tetapi model dua tahap sangat lambat. Model satu tahap yang
dan sampah besar. Jumlah setiap jenis data sampah dan pelatihan- diusulkan kemudian mengacu pada gagasan RPN dan melampaui Faster
pengujian adalah sebagai TABEL II. RCNN dalam hal kecepatan dan akurasi. Membandingkan model kami
dengan Faster RCNN, kami menemukan bahwa Faster RCNN memiliki efek
pengenalan yang buruk pada target kecil, sedangkan YOLOv3 memiliki
TABEL II. Data Sampah untuk pelatihan dan pengujian
efek yang baik pada pengenalan target kecil. Keakuratan spesifik dan
waktu penalaran ditunjukkan pada TABEL III.
Data Lokal Dekorasi Besar Latar belakang Total
Pelatihan 4621 3983 3396 0 12000

TABEL III. Kecepatan dan akurasi antara Faster RCNN dan yolov3
Tes 2140 1037 823 4000 8000
Model Ketepatan Mengingat Waktu (md)
B. Peningkatan data RCNN lebih cepat 79,54% 85,57% 500

Kami menggunakan peningkatan data di YOLOv3 untuk
YOLOv3- jaringan gelap 87,36% 93,48% 60
melakukan transformasi gambar, membalik, mencukur warna,
transformasi terjemahan, transformasi skala, transformasi kontras,
B. Model Mana yang Lebih Baik untuk Model Satu Tahap?
gangguan kebisingan, dan transformasi rotasi. Pengumpulan data
membutuhkan banyak tenaga kerja dan sumber daya material. Data Tanpa kehilangan sifat umum, kami menggunakan beberapa
ini memiliki nilai penelitian akademis yang tinggi dan nilai komersial. model satu tahap sebagai pembanding. Model ini adalah YOLOv3-
Kami tidak mengungkapkan data ini untuk saat ini. darknet, RetinaNet-800, dan DSSD513. Baik pada objek besar maupun
kecil, ketiga model tersebut telah mencapai hasil yang baik. Lebih
khusus lagi, model yang kami adopsi telah mencapai kecepatan dan
C. Data Gambar dengan Cahaya Kuat
akurasi terbaik. Hasilnya ditunjukkan pada TABEL IV.
Kami sering menjumpai beberapa adegan pengambilan gambar dengan
pencahayaan yang kuat dalam pengujian jalan yang sebenarnya. Meskipun
kamera dapat dengan mudah disesuaikan dengan pengguna saat meninggalkan
pabrik, dampak ini tidak dapat sepenuhnya dihindari. Cahaya yang kuat seperti
kantong plastik putih dan tidak ada cara yang baik untuk mengatasinya
223
TABEL IV. Kecepatan dan akurasi di antara model satu tahap yang berbeda
Model Ketepatan Mengingat Waktu (md)
YOLOv3-
87,36% 93,48% 60
darknet
RetinaNet-800 85,17% 91,62% 213
DSSD513 83,47% 89,33% 164
C. Default Anchor Box atau Clustering Anchor Box Kita Sendiri?

Kami juga menguji tingkat akurasi dan daya ingat antara kotak jangkar
berdasarkan klaster kami sendiri dan kotak jangkar yang disediakan oleh
penulis di bawah YOLOv3-darknet. Kami menemukan bahwa jika kami
langsung menggunakan efek kotak jangkar yang disediakan oleh penulis, Gambar 3. Hasil deteksi sampah domestik.
itu tidak akan terlalu buruk. Tetapi dibandingkan dengan kotak jangkar
dari kluster kami sendiri, tingkat akurasi dan penarikan berkurang 1%.
Menggunakan kotak jangkar dari kluster kami sendiri dapat meningkatkan
akurasi pemosisian.
TABEL V. Kecepatan dan akurasi di antara berbagai model satu tahap
Kotak Jangkar Ketepatan Mengingat
kotak jangkar kami 87,36% 93,48%
kotak jangkar default 86,42% 92,17%
D. Bagaimana Mengatasi Error Recognition

Dalam uji jalan yang sebenarnya, banyak benda non-limbah yang
Gambar 4. Hasil pendeteksian sampah multiskala.
teridentifikasi sebagai sampah, termasuk ban sepeda, sepatu, dan
indikator jalan. Kami menyelidiki alasannya dan menemukan bahwa
beberapa data dalam data pelatihan bercampur dengan ban sepeda,
sepatu, dan beberapa sampah putih. Sampah adalah objek
ketidakpastian dan tidak memiliki karakteristik yang stabil. Ketika ini
terjadi, kategori yang sesuai dapat ditambahkan ke pelatihan untuk
kompetisi antar kelas. Kami menangani hal ini, mengumpulkan data
sepeda, data sepatu, data garis indikator jalan pada kumpulan data
sumber terbuka dan menandai kategori yang sesuai. Saat
menambahkan data ini ke pelatihan model, model memiliki kinerja
yang lebih baik. Kategori ini akan bersaing dengan sampah pada saat
pendeteksian. .
E. Satu Metode Lagi dengan Cahaya Kuat

Gambar 5. Hasil deteksi sampah kecil.
Meskipun data pelatihan di bawah cahaya kuat yang disimulasikan telah
ditambahkan, cahaya kuat itu sendiri tidak dapat dihindari saat mengumpulkan
VI. CKESIMPULAN
gambar. Kami menggunakan koreksi Gamma untuk mengoreksi gambar lebih
lanjut di bawah cahaya yang kuat, sehingga gambar yang lebih terang akan Model YOLOv3-darknet berdasarkan pengelompokan kotak jangkar adaptif
dapat secara akurat mengklasifikasikan dan menemukan tiga jenis sampah
ditarik ke area distribusi yang lebih gelap, dan kontrasnya akan ditingkatkan.
dalam adegan yang kompleks, dan juga telah mencapai hasil yang baik dalam
mendeteksi sampah target kecil. Model dapat mencapai hampir 60ms untuk
F(SAYA)SAYA
setiap gambar dalam kecepatan yang memenuhi persyaratan kendaraan
Kapan 1, kisaran area abu-abu rendah menjadi lebih besar bergerak.
dan kontras ditingkatkan.

AUCAPAN TERIMA KASIH
Penelitian ini sebagian didukung oleh National Nature Science
Foundation of China (Grant no. 51575332 dan no. 61673252). Penulis
berterima kasih kepada para peserta yang telah membantu menyediakan
kumpulan data pemandangan perkotaan dan memberi anotasi pada
gambar.
224
RREFERENSI konvolusi, dalam Prosiding Konferensi IEEE tentang Visi
Komputer dan Pengenalan Pola, 2015, hlm. 1 9.
[1] G Mittal, KB Yagnik , dan M. Garg, Spot Garbage: aplikasi ponsel pintar untuk
[11] Y. Wang, dan X. Zhang, Autonomous garbage detection for intelligent urban
mendeteksi sampah menggunakan pembelajaran mendalam, ACM International
management, MATEC Web of Conferences, 2018, hlm. 2-4.
Joint Conference on Pervasive and Ubiquitous Computing. ACM, 2016, hlm.
940-945. [12] AG Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, dan T.
Weyand, Mobilenets: jaringan saraf konvolusional yang efisien untuk
[2] SF Wei , dan ZL Cheng, Deteksi otomatis berbasis gambar dari sampah
aplikasi visi seluler, arXiv:1704.04861,2017.
perkotaan, Teknologi integrasi, 2017.
[13] FN Iandola, S. Han, MW Moskewicz, K. Ashraf, WJ Dally, dan K. Keutzer,
[3] S. Ren, K. He, R. Girshick, dan J. Sun, Faster R-CNN: Menuju deteksi
Squeezenet: akurasi tingkat alexnet dengan parameter 50x lebih sedikit
objek realtime dengan jaringan proposal wilayah, di NIPS,2015.
dan ukuran model <0,5mb, arXiv:1602.07360,2016.
[4] MD Zeiler, dan R. Fergus, Memvisualisasikan dan memahami jaringan
[14] J. Redmon, dan A. Farhadi, Yolov3: peningkatan bertahap,
konvolusional, dalam arXiv,2013.
arXiv:1804.02767, 2018.
[5] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image
[15] J. Redmon, S. Divvala, R. Girshick, dan A. Farhadi, Anda hanya melihat sekali:
recognition, In CVPR, 2016.
Uni ed, deteksi objek waktu nyata, di CVPR, 2016.
[6] M. Long, J. Wang, G. Ding, J. Sun, dan PS Yu, Pembelajaran Fitur Transfer
[16] J. Redmon, dan A. Farhadi, Yolo9000: Better,faster,stronger, dalam
dengan Adaptasi Distribusi Bersama, Konferensi Internasional IEEE 2013
Computer Vision and Pattern Recognition (CVPR), 2017 IEEE
tentang Visi Komputer (ICCV), IEEE Computer Society, 2013.
Conference, 2017, hlm. 6517 6525.
[7] MS Rad, dan AV Kaenel, A Computer Vision System to Localize and
[17] S. Ioffe, dan C. Szegedy. Normalisasi batch: Mempercepat pelatihan jaringan dalam
Classify Wastes on the Streets, International Conference on Computer
dengan mengurangi pergeseran kovariat internal. Dalam Prosiding
Vision Systems. Springer, Cham, 2017, hlm. 195-204.
Konferensi Internasional ke-32 tentang Pembelajaran Mesin, 2015, hlm.
[8] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, dan Y. LeCun, 448 456.
deteksi menggunakan
[18] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, dan SE Reed, SSD: detektor
dalam Konferensi Internasional tentang Pembelajaran
multikotak tembakan tunggal, CoRR, abs/1512.02325, 2015, hlm. 4-6.
Representasi (ICLR), 2014.
[19] TY Lin, P. Goyal, R. Girshick, K. He, dan D. Piotr, Kehilangan fokus untuk
[9] A. Krizhevsky, I. Sutskever, dan GE Hinton, dengan klasifikasi Imagenet
deteksi objek padat, Transaksi IEEE pada Analisis Pola &
jaringan saraf konvolusional yang dalam, sistem di Kemajuan saraf
Kecerdasan Mesin, 2017, hlm. 2999-3007.
pemrosesan informasi, 2012, hlm. 1097 1105.
[20] CY Fu, W. Liu, A. Ranga, A. Tyagi, and AC Berg, DSSD:
[10] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D.
Deconvolutional single shot detector, arXiv preprint
Erhan, V. Vanhoucke, and A. Rabinovich, Lebih dalam dengan
arXiv:1701.06659, 2017.
225

YOLOv3-darknet Dengan Adaptive Clustering Anchor

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

YOLOv3-darknet Dengan Adaptive Clustering Anchor

Diunggah oleh

Hak Cipta:

Format Tersedia

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

YOLOv3-darknet dengan Adaptive Clustering Anchor

Wei Cui Wei Zhang, Juli Hijau

Gambar 1. Sampah di jalan

978-1-7281-3584-7/19/$31,00 ©2019 IEEE

menunjukkan bahwa kotak jangkar ke-j di kotak jangkar ke-i

Pelatihan 4621 3983 3396 0 12000

B. Peningkatan data RCNN lebih cepat 79,54% 85,57% 500

Model Ketepatan Mengingat Waktu (md)

RetinaNet-800 85,17% 91,62% 213

DSSD513 83,47% 89,33% 164

C. Default Anchor Box atau Clustering Anchor Box Kita Sendiri?

TABEL V. Kecepatan dan akurasi di antara berbagai model satu tahap

Kotak Jangkar Ketepatan Mengingat

kotak jangkar kami 87,36% 93,48%

kotak jangkar default 86,42% 92,17%

D. Bagaimana Mengatasi Error Recognition

E. Satu Metode Lagi dengan Cahaya Kuat

dan kontras ditingkatkan.

Anda mungkin juga menyukai