Anda di halaman 1dari 15

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Bab 9

Jaringan Sensor IoT


dengan 5G-Diaktifkan Lebih Cepat

Generatif Berbasis RCNN


Model Jaringan Adversarial
untuk Sintesis Sketsa Wajah
N. Gnanasankaran dan E. Ramaraj
Departemen Ilmu Komputer, Universitas Alagappa,
Karaikudi, Tamil Nadu, India

ISI
9.1 Pendahuluan 135
9.2 Model FRCNN-GAN yang Diusulkan 138
9.2.1 Pengumpulan Data 139
9.2.2 Pengenalan Wajah Berbasis R-CNN Lebih Cepat 140
9.2.3 Proses Sintesis Berbasis GAN 142
9.3 Validasi Kinerja 144
9.4 Kesimpulan 148
Pengakuan 148
Referensi 149

9.1 PENDAHULUAN
Saat ini, dengan pertumbuhan progresif dalam domain sektor TI dan elektronik, telah terjadi percepatan
peningkatan dalam pengembangan model IoT 5G. Teknik-teknik ini memungkinkan untuk bertukar
pikiran tentang kualitas dan efisiensi berbagai fasilitas kota dan perumahan, termasuk manajemen lalu
lintas, energi, transportasi, dan sebagainya. Secara bersamaan, kejahatan dunia maya dianggap sebagai
masalah krusial dalam kehidupan sehari-hari karena tidak terakumulasi dalam rangkaian tindakan
kejahatan lokal yang tetap. Beberapa kemungkinan jejak bukti tersebar di beberapa struktur dan kasus,
dan mereka melintasi lebih banyak yurisdiksi sebelumnya. Forensik digital dianggap sebagai a

135
136◾Teknik Kecerdasan Buatan dalam Jaringan Sensor IoT

bagian penting dari metode investigasi kejahatan dunia maya. Suatu pencapaian teknis,
penelitian, dan pengarsipan data yang merupakan penyiaran listrik yang datanya dapat
dijadikan bukti di pengadilan. Pemrosesan citra forensik berisi restorasi komputer dan
perbaikan citra pemeriksaan [1]. Ini difokuskan pada pemanfaatan ekstraksi data dari
pencitraan pengawasan, terutama untuk gambar yang berisik, tidak lengkap, atau over/
underexposed. Teknik citra forensik adalah metode perbaikan citra digital dengan bantuan
berbagai teknik computer vision. Dalam pencitraan komputer, sintesis sketsa wajah (FSS)
adalah zona penting, dan berisi berbagai aplikasi seperti jejaring sosial virtual dan
pengenalan wajah.
Dengan asumsi identifikasi wajah sebagai masalah ukuran sampel kecil yang mungkin menjadi hambatan waktu nyata, mungkin berhasil sebagian besar dengan membuat data

pelatihan dengan beragam perbedaan. Deteksi wajah adalah masalah penting dan signifikan dalam pencitraan komputer dan identifikasi prototipe yang telah dipertimbangkan secara luas

selama beberapa tahun terakhir. Telah ditemukan berguna dalam beberapa fungsi yang berhubungan dengan wajah: konfirmasi wajah [2], identifikasi wajah, pengelompokan wajah, dan

sebagainya. Setelah penelitian baru kerangka kerja pengenalan objek Viola Jones, beberapa teknik telah direncanakan untuk pengenalan wajah dalam sepuluh tahun terakhir. Pekerjaan

sebelumnya di bidang ini sebagian besar ditujukan untuk menambang berbagai jenis struktur buatan tangan melalui spesialis lapangan dalam pencitraan komputer dan klasifikasi efisien

pelatihan untuk menemukan dan mengidentifikasi dengan teknik pembelajaran mesin konvensional. Metode ini dibatasi karena mereka sering membutuhkan profesional pencitraan

komputer dalam membuat fitur yang lebih baik dan setiap elemen tertentu ditingkatkan secara khusus, membuat keseluruhan pipa deteksi tidak optimal. Saat ini, deep learning (DL),

khususnya deep convolutional neural network (DCNN), telah mencapai kesuksesan luar biasa dalam banyak pemrosesan gambar komputer, mulai dari pengklasifikasi gambar untuk

mendeteksi objek hingga segmentasi semantik, dan seterusnya. Metode ini dibatasi karena mereka sering membutuhkan profesional pencitraan komputer dalam membuat fitur yang

lebih baik dan setiap elemen tertentu ditingkatkan secara khusus, membuat keseluruhan pipa deteksi tidak optimal. Saat ini, deep learning (DL), khususnya deep convolutional neural

network (DCNN), telah mencapai kesuksesan luar biasa dalam banyak pemrosesan gambar komputer, mulai dari pengklasifikasi gambar untuk mendeteksi objek hingga segmentasi

semantik, dan seterusnya. Metode ini dibatasi karena mereka sering membutuhkan profesional pencitraan komputer dalam membuat fitur yang lebih baik dan setiap elemen tertentu

ditingkatkan secara khusus, membuat keseluruhan pipa deteksi tidak optimal. Saat ini, deep learning (DL), khususnya deep convolutional neural network (DCNN), telah mencapai

kesuksesan luar biasa dalam banyak pemrosesan gambar komputer, mulai dari pengklasifikasi gambar untuk mendeteksi objek hingga segmentasi semantik, dan seterusnya.

Berbeda dengan teknik computer vision konvensional, teknik DL menghindari


pipa model buatan tangan yang mengalami beberapa estimasi tolok ukur populer,
seperti ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [3]. DL telah
dimasukkan ke dalam zona visi komputer, yang menyebabkan berkembangnya
penelitian untuk mengeksplorasi DL untuk menyelesaikan proses deteksi wajah.
Secara umum, deteksi wajah dianggap sebagai kelas metode deteksi objek yang
tidak biasa. Oleh karena itu, para peneliti telah mencoba menangani deteksi wajah
dengan menemukan metode DL yang efektif untuk proses deteksi objek dasar. Latar
belakang yang paling penting dan sangat efektif untuk pengenalan objek dasar
adalah teknik CNN berbasis wilayah (RCNN) yang merupakan jenis perluasan CNN
untuk menyelesaikan proses pengenalan objek.
Meskipun pengembangan teknis dalam pengenalan wajah sudah ada, penciptaan gambar
wajah dengan penyesuaian yang beragam dan mempertahankan identitas utama pada saat yang
sama adalah kompleks. Selain itu, terdapat masalah dalam memplot dari faktor perbedaan hingga
pencitraan wajah berdimensi tinggi. Juga sulit bahwa manusia sangat beradaptasi dengan sedikit
data di daerah wajah. Di FSS, terdapat dua tantangan penting. Secara bersamaan, beragam variasi
semantik wajah muncul seperti ekspresi, pose, penyamaran wajah, dan perubahan pencahayaan
yang sulit disintesiskan dalam ruang gambar.
Model Jaringan untuk Sintesis Sketsa Wajah◾137

Untuk ruang gambar nyata, metode untuk mempelajari modifikasi kompleks yang secara efektif cocok untuk
ruang semantik laten masih menjadi hal yang diperdebatkan.
Meskipun teknik pengenalan wajah telah dirancang, metode melestarikannyaidentifikasi subjek
adalah tugas yang berat. FSS telah memotivasi beberapa peneliti untuk berkonsentrasi pada topik
yang sedang tren ini. Ciptaanlintas modalgambar adalah area penelitian satu arah. Teknik Bayesian
FSS disajikan dalam ref. [4] adalah proses segmentasi yang dilakukan dengan bantuan dua proses
yaitu perhitungan bobot dan teknik pemilihan tetangga. Untuk mempercepat proses sintesis,
metode baru model-driven FSS direncanakan, dan banyak metode yang efektif ditemukan untuk
meningkatkan prosedur pemilihan tetangga. Metode yang pasti digunakan adalah memperbaiki
bagian citra wajah yang terhalang dan melakukan perhitungan kenampakan bagian wajah lainnya
dengan menggunakan metode morphable. Untuk mengimprovisasi proses teknik morphable,
digunakan kamus citra wajah frontal pada tahap awal [5]. Teknik ini direncanakan berdasarkan
analisis komponen utama (PCA) dan memverifikasi gambar tujuan dengan kombinasi eigenfaces
linier. Pengkodean yang jarang dan regresi pose bertingkat ditemukan untuk kelompok usia
dengan banyak ekspresi dan tipe postur. Karena artefak, detail yang tidak mencukupi dari fitur
wajah tertentu, dan resolusi, kualitas gambar yang dibentuk oleh teknik sebenarnya diminimalkan.
Sulit untuk teknik yang sebenarnya untuk mengidentifikasi gambar wajah secara keseluruhan.

Pengenalan wajah telah diselidiki secara luas dalam literatur visi komputer. Sebelum tahun
2000, meskipun banyak penelitian bervariasi, pengenalan wajah yang efisien di dunia nyata masih
jauh dari mencapai hasil yang dapat diterima sampai upaya revolusioner dilakukan oleh Viola dan
Jones. Khususnya, model VJ [6] adalah model pertama yang menggunakan fitur persegi panjang
seperti Haar dalam klasifikasi Adaboost bertingkat untuk mencapai pengenalan wajah yang
sebenarnya. Tapi itu memiliki banyak kelemahan penting. Awalnya, ukuran fiturnya cukup besar.
Secara klasik, dalam jendela deduksi 24 × 24, jumlah fitur mirip Haar adalah 160.000. Selain itu,
tidak dapat menangani wajah non-frontal dan frontal secara efisien di alam liar. Untuk mengatasi
masalah awal, beberapa karya telah menghasilkan fitur yang sangat kompleks seperti HOG, SIFT,
SURF, dan ACF. Misalnya, dalam ref. [7], fitur baru yang dikenal sebagai NPD direncanakan yang
menghitung rasio varians antara intensitas dua piksel mana pun dengan nilai total. Penulis lain
berfokus pada percepatan proses pemilihan fitur menggunakan teknik heuristik.
Library Dlib C++ yang terkenal [8] telah menerapkan SVM sebagai teknik klasifikasi dalam teknik
deteksi wajah. Teknik lain seperti hutan acak juga telah dicoba. Meningkatkan kekuatan pengakuan
adalah topik penelitian lainnya. Salah satu langkah mudahnya adalah mengintegrasikan banyak
detektor yang telah dikembangkan dengan jelas untuk sudut pandang atau postur yang unik. Zhu
dan Ramanan [9] menyiratkan banyak teknik bagian yang dapat dideformasi untuk menangkap
wajah dengan penampilan yang beragam. Shen dkk. [10] menyarankan teknik berbasis
pengambilan yang terkait dengan pembelajaran diskriminatif. Namun, pelatihan serta pengujian
teknik ini menghabiskan lebih banyak waktu, dan peningkatan kinerja pengenalan relatif terbatas.

Belakangan ini, Chen et al. [11] merancang teknik untuk melakukan deteksi wajah saat ini
dengan konfigurasi wajah, dan mencapai efisiensi maksimum dalam akurasi serta kecepatan.
Saat ini, mereka telah mengamati perkembangan deteksi wajah oleh DL, yang berulang kali
bekerja dengan baik dalam teknik visi komputer konvensional. Misal seperti Zhan
138◾Teknik Kecerdasan Buatan dalam Jaringan Sensor IoT

et al. [12] memanfaatkan CNN untuk pembelajaran otomatis dan proses ekstraksi fitur yang digunakan
dalam pengenalan wajah. Li dkk. [13] merekomendasikan teknik untuk mendeteksi wajah di alam liar
yang menggabungkan ConvNet dan metode wajah rata-rata 3D dalam latar belakang pembelajaran
diskriminatif multitask end-to-end. Saat ini, Faster R-CNN [14] digunakan, yang merupakan salah satu
pendeteksi objek klasik yang telah mencapai hasil yang terjamin. Selain itu, banyak upaya telah dilakukan
untuk menyempurnakan model Faster R-CNN. Dalam ref. [15], pelatihan gabungan dilakukan pada
kaskade CNN, jaringan proposal wilayah (RPN), dan Faster R-CNN telah diimplementasikan dalam
optimasi end-to-end.
Lu dkk. [16] menunjukkan metode layak yang mencakup dua tahap: preprocessing dan
sintesis sketsa. Survei ekstensif pada database sketsa wajah terbuka menyetujui bahwa
rencana yang ada meningkatkan sifat sintesis sketsa dari rencana berbasis contoh. Kamu et
al. [17] telah mengusulkan tiga interpretasi GAN (TTGAN) dengan ilustrasi jarang multilayer.
Mereka merancang teknik ilustrasi minim berlapis-lapis, di mana pembatasan ilustrasi
standar L1 digabungkan dengan pembuatan gambar untuk meningkatkan volume
perlindungan karakter dan kekuatan pencitraan wajah yang dibuat untuk kesalahan
rekonstruksi. Hasil investigasi sintesis wajah pada database wajah standar secara tepat
mengkonfirmasi kinerja efektif dengan metode yang ada. Dalam ref. [18], teknik CNN (M-
CNN) telah ditingkatkan, termasuk dua lapisan konvolusional: pooling layer dan multilayer
perceptron (MLP) convolutional layer untuk mempelajari plotting antara gambar wajah ke
sketsa. Namun, efisiensi teknik ini dapat ditingkatkan dengan penggunaan model optimasi
parameter.
Bab ini memperkenalkan Internet of Things (IoT) baru dan Faster RCNN
berkemampuan 5G dengan generative adversarial network (GAN) yang disebut model
FRCNN-GAN untuk FSS. Model yang diusulkan awalnya melibatkan proses pengambilan
gambar menggunakan perangkat IoT yang terhubung ke OpenMV Cam M7 Smart Vision
Camera. Ini digunakan untuk menangkap wajah orang dari tempat umum. Kemudian,
model Faster RCNN digunakan untuk pengenalan wajah dari gambar yang diambil.
Selanjutnya, model GAN mensintesis gambar wajah dan menghasilkan sketsa wajah.
Terakhir, sketsa wajah yang dihasilkan dan sketsa yang ada di database forensik
dibandingkan dan gambar yang paling relevan diidentifikasi. Analisis eksperimental
terperinci menunjukkan bahwa model FRCNN-GAN telah diuji menggunakan dua set
data: CUHK dan IIIT.

9.2 MODEL FRCNN-GAN YANG DIUSULKAN


Prinsip kerja yang terlibat dalam model FRCNN-GAN yang disajikan ditunjukkan pada Gambar
9.1.
Awalnya, model FRCNN-GAN memperoleh gambar dari tempat umum dengan menggunakan
OpenMV Cam M7 Smart Vision Camera. Ini menangkap gambar dan menyimpannya dalam
memori. Kemudian, model FRCNN-GAN menjalankan proses pengenalan wajah menggunakan
model Faster RCNN, yang mengidentifikasi wajah dengan benar dalam gambar yang diambil.
Kemudian, modul FSS berbasis GAN digunakan untuk mensintesis wajah yang dikenali dan
menghasilkan sketsa wajah. Terakhir, sketsa wajah yang dihasilkan dan sketsa yang ada di
database forensik dibandingkan dan gambar yang paling relevan diidentifikasi.
GAMBAR 9.1Diagram blok model FRCNN-GAN.

9.2.1 Pengumpulan Data


Pada tahap pengumpulan data, metode yang diusulkan memanfaatkan perangkat IoT berkemampuan 5G yang
disebut OpenMV Cam M7 Smart Vision Camera untuk keperluan pengumpulan data. Ini terdiri dari sensor
gambar OV7725 yang mampu menangkap gambar pada gambar 640 × 480 8-bit skala abu-abu atau 320 × 240
RGB565 16-bit pada 30 FPS.
Ini melibatkan kamera OpenMV yang memiliki lensa 2,8 mm pada dudukan lensa M12 standar.
Ini terdiri dari soket kartu microSD 100 kita berjalan sampai

54 Mbs dan memungkinkan streaming yang mudah pada Gambar 9.2.

GAMBAR 9.2Kamera visi cerdas OpenMV Cam M7.


140◾Palsu

GAMBAR 9.3Keseluruhan arsitektur model Faster RCNN.

9.2.2 Pengenalan Wajah Berbasis R-CNN Lebih Cepat

Ini adalah versi R-CNN yang sangat ditingkatkan yang lebih cepat dan sangat akurat dalam pemrosesan.
Perubahan utama Faster R-CNN adalah memanfaatkan CNN untuk menghasilkan proposal objek
menggantikan Pencarian Selektif pada fase sebelumnya. Hal ini dikenal sebagaiRPN. Pada tingkat yang
lebih tinggi, RPN awalnya menyiratkan jaringan CNN dasar VGG-19 untuk mengekstraksi fitur dari
gambar. RPN menghasilkan image feature map sebagai input dan membuat kumpulan set skema objek
masing-masing dengan nilai skor objek sebagai hasilnya. Jaringan minor mengalokasikan set skor
pengklasifikasi objek dan kotak memantul langsung ke setiap posisi objek. Gambar 9.3 menunjukkan
desain struktural keseluruhan model Faster RCNN. Langkah-langkah yang terlibat dalam Faster R-CNN
adalah sebagai berikut:

• Gambar diambil dan diteruskan ke VGG-19 dan peta fitur sebagai output untuk
gambar diperoleh. RPN digunakan pada peta fitur. Itu dikembalikan ke
proposal objek, termasuk skor objek.

• Lapisan penyatuan RoI digunakan dalam metode ini untuk mengurangi setiap proposal ke ukuran
yang sama.
Model Jaringan untuk Sintesis Sketsa Wajah◾141

• Terakhir, pendekatan digunakan dalam lapisan yang terhubung sepenuhnya (FC). Ini berisi lapisan
softmax dan lapisan regresi linier di atasnya untuk mengklasifikasikan dan menghasilkan kotak
pembatas ke objek.

RPN dimulai dengan gambar input yang disediakan di dasar CNN. Gambar yang diterapkan awalnya
diubah ukurannya menjadi langkah terkecil adalah 600 px hingga langkah yang lebih besar tidak melebihi
1.000 px. Karakteristik hasil jaringan backbone umumnya lebih pendek dari citra terapan berdasarkan
step jaringan backbone. Jaringan backbone yang layak digunakan dalam upaya ini adalah VGG16. Ini
menunjukkan bahwa dua piksel berturut-turut dalam fitur hasil backbone menandakan dua titik 16 piksel
secara terpisah dalam gambar yang diterapkan. Untuk setiap titik dalam peta fitur, jaringan mempelajari
apakah suatu objek ada dalam gambar yang diterapkan di lokasi masing-masing dan menentukan
ukuran objek tersebut. Ini dapat dilakukan dengan memposisikan set "Anchors" pada gambar yang
diterapkan ke setiap lokasi pada peta fitur hasil dari jaringan backbone. Jangkar tersebut menetapkan
kemungkinan objek dalam berbagai ukuran dan rasio fitur di tempat ini. Secara total, sembilan jangkar
yang layak dalam tiga rasio fitur yang berbeda dan tiga ukuran berbeda diposisikan pada gambar yang
diterapkan pada titik A pada peta fitur hasil. Jangkar yang digunakan memiliki tiga skala daerah kotak 128
, 2562, dan 5122dan tiga rasio aspek 1:1, 1:2, dan 2:1.
2

Saat jaringan melewati setiap piksel dalam peta fitur hasil, jaringan akan memverifikasi apakah
itukmasing-masing jangkar yang melintasi gambar yang diterapkan pada dasarnya memiliki objek,
dan meningkatkan jangkar ini membantu mencapai kotak terikat sebagai "Proposal objek" atau
bidang minat. Awalnya, lapisan konvolusional 3 × 3 dengan 512 unit digunakan pada peta fitur
backbone untuk menyediakan peta fitur 512-d ke setiap lokasi. Ini dapat diikuti oleh dua lapisan
familial: lapisan konvolusional 1 × 1 dengan 18 unit ke pengklasifikasi objek, dan konvolusional 1 ×
1 dengan 36 unit ke regresi kotak terbatas. 18 unit di divisi pengklasifikasi memberikan hasil
dengan ukuran (H, W, 18). Hasil ini digunakan untuk menawarkan kemungkinan semua titik di peta
fitur tulang punggung yang terdiri dari objek di dalam setiap sembilan jangkar pada saat itu. 36
unit di bagian regresi diterapkan untuk menawarkan empat koefisien regresi dari setiap sembilan
jangkar untuk setiap titik di peta fitur tulang punggung. Koefisien regresi ini digunakan untuk
meningkatkan jangkar yang terdiri dari objek.

• Sebuah jangkar dianggap “negatif” ketika IoU-nya dengan setiap kotak kebenaran dasar
kurang dari 0,3. Jangkar residual (baik positif atau negatif) diabaikan untuk dilatih RPN.

• Kehilangan pelatihan ke RPN adalah kehilangan multitugas yang diberikan oleh:

L({PSaya},{TSaya})=
1
Ncls ∑
Saya
Lcls(PSaya,PSaya
* )+λ
1
Nreg
∑P * Lreg
Saya

Saya
*)
(TSaya,Saya
T (9.1)

• Di SiniSayaadalah indeks jangkar di mini-batch. Kerugian pengklasifikasiLcls(PSaya, PSaya*)adalah


kerugian log di atas dua label kelas (objek versus bukan objek).PSayaadalah skor hasil dari cabang
pengklasifikasi ke jangkarSaya, DanPSaya*adalah label kebenaran dasar (1 atau 0).
142◾Teknik Kecerdasan Buatan dalam Jaringan Sensor IoT

*)
dirangsang sepenuhnya dan jangkar terdiri dari objek,
• Kerugian regresiLulang(TSaya, TSaya
itu adalah kebenaran dasarP* 1. KataTSayaadalah perkiraan hasil dari regresi
Sayaadalah

lapisan dan berisi empat variabel [TX,Ty,Tw,TH].

• Koefisien regresi digunakan untuk jangkar ke lokalisasi yang akurat dan menawarkan
kotak berbatas yang tepat.

• Setiap kotak diurutkan sesuai dengan merekaclsskor. Selanjutnya, nonmaximum suppression


(NMS) digunakan dengan nilai ambang 0,7. Kotak berbatas top-down yang berisi IoU lebih
tinggi dari 0,7 dengan satu atau lebih kotak pembatas diabaikan. Oleh karena itu, kotak
berbatas skor maksimum dibawa ke grup kotak tumpang tindih.

Fast R-CNN berisi CNN (biasanya dilatih sebelumnya pada tugas pengklasifikasi ImageNet) dengan
lapisan penyatuan terakhirnya ditukar melalui lapisan "pengumpulan ROI" dan lapisan FC terakhirnya
ditukar dengan dua pemisahan—a (K+1) kategori cabang lapisan softmax dan cabang regresi kotak
terikat kategori khusus.

• Gambar yang diterapkan awalnya dikirim melalui tulang punggung CNN untuk menghasilkan peta
fitur. Selain efektivitas waktu pengujian, tujuan utama lainnya adalah menggunakan RPN sebagai
generator proposal. Ini menawarkan manfaat daripendistribusian bobot di antara tulang
punggung detektor RPN dan Fast R-CNN.

• Kemudian, pendekatan kotak pembatas dari RPN diterapkan untuk menggabungkan fitur dari
peta fitur backbone. Ini dapat dilakukan melalui lapisan penyatuan ROI. Lapisan penyatuan
ROI memproses dengan (a) memikat area yang setara untuk metode di peta fitur tulang
punggung; (b) memisahkan area ini menjadi hitungan sub-jendela statis; dan (c)
mengeksekusi max-pooling pada sub-windows ini untuk memberikan hasil ukuran statis.

RoI pooling adalah lapisan jaring saraf yang digunakan untuk proses deteksi objek. Awalnya
direkomendasikan oleh Ross Girshick pada bulan April 2015.Ini adalah proses mendeteksi objek
dengan menerapkan CNN secara luas. Tujuannya adalah untuk melakukan max-pooling pada
masukan ukuran yang tidak biasa untuk mendapatkan peta fitur berukuran tetap (misalnya 7×7).Ini
telah mempercepat pelatihan serta proses pengujian. Ini mengelola akurasi deteksi maksimum.
Hasil dari pooling layer RoI mendapatkan ukuran (N, 7, 7, 512), di manaNadalah jumlah pendekatan
dari teknik RP. Setelah mengirimnya ke dua lapisan FC, sebuah fitur disediakan ke cabang
pengklasifikasi dan regresi saudara. Terlihat bahwa pengklasifikasi dan divisi deteksi tidak mirip
dengan RPN. Di sini, lapisan pengklasifikasi memiliki unit C di semua kelas dalam tugas deteksi.
Fitur dikirim ke lapisan softmax untuk mendapatkan skor pengklasifikasi—kemungkinan saran
terkait dengan setiap kelas.

9.2.3 Proses Sintesis Berbasis GAN


Awalnya, notasi ke FSS didefinisikan. Berikan gambar uji (diamati), tujuannya
menghasilkan hasil yang diambilMpasang sketsa wajah kereta api dan foto. GAN
bersyarat mempelajari pemetaan nonlinear dari gambar uji dan vektor noise arbitrer,
Model Jaringan untuk Sintesis Sketsa Wajah◾143

untuk hasilnya,: {T, }z→Sdaripadaz}→Sseperti yang dilakukan GAN. Generator dipelajari untuk
menghasilkan hasil yang tidak dapat ditentukan dari gambar "nyata" oleh diskriminator yang
dilatih untuk membedakan generator "palsu".
Tujuan GAN bersyarat ditulis sebagai berikut:

∗=com.argminmaxLcGAN(G,D)+ λLL1(G) (9.2)


G D

Di mana adalah untuk menyeimbangkan kerugian GAN serta kerugian regularisasi dan kerugian GAN
ditentukan sebagai berikut:

cGAN (G,D)= -sdt , ∼data(T,S) [catatanD(T,S)]+- T∼Pda A(T),z∼Pz(z)⎣⎡ catatan(1−D(T,G(T,z)))⎤ ⎦


T
(9.3)

Kerugian GAN bersyarat digunakan untuk mendorong lebih sedikit kekaburan dan direpresentasikan sebagai
berikut:

L1(G)= - T,S∼Pdata(T,S),z∼Pz(z)⎡ ⎣S−G(T,z) ⎤ (9.4)


1⎦

Ini disesuaikan dengan generator serta struktur diskriminator dari individu dalam
tipe Convolutional-Batch Norm-ReLu.
Dalam sketsa yang disintesis oleh GAN ini, teksturnya tetap halus. Namun noise muncul
dengan tekstur halus karena pemetaan piksel-ke-piksel. Untuk menghilangkan kebisingan ini,
sketsa disintesis dan ditempatkan kembali ke sketsa pelatihan. Setiap gambar wajah disusun
dan dipotong untuk ukuran yang sama (250 × 200) berdasarkan pusat mata dan juga pusat
mulut.
MenganggapX1,…,XMmenunjukkanMsketsa pelatihan. Awalnya, setiap sketsa pelatihan dan sketsa
dibagi menjadi tambalan (ukuran tambalan:P) melalui tumpang tindih (ukuran tumpang tindih: ) di antara
tambalan yang berdekatan. MenganggapSaya,JmenandakanSaya,J)patch dari,Di mana
≤Saya≤R, 1≤J≤C. Sekarang,Rdan lihat jumlah tambalan di jalur baris dan kolom yang sesuai
dengan gambar. Karena sketsa yang disintesis memiliki tekstur yang sangat sama dengan sketsa
pelatihan, ia telah membuat ulang sketsa dalam pendekatan berbasis data berdasarkan jarak
Euclidean dari tambalan gambar.
Untuk membuat sketsa tambalanSaya,J, awalnya mengeksplorasiKtetangga yang lebih dekat dari setiap sketsa
pelatihanX1,…,XMdi sekitar lokasiSaya,J)sehubungan dengan jarak Euclidean mereka di antara intensitas
tambalan. Karena adanya ketidakteraturan di antara berbagai sketsa wajah, hal itu memperluas area eksplorasi
berdasarkan tempatnya masing-masingSaya,J)oleh piksel tentang arah atas, bawah, kiri, dan kanannya.
Begitulah2l+1)× (2l+1)tambalan pada semua sketsa pelatihan untuk dicocokkan. Untuk membuat sketsa
tambalanSaya,J, itu memilihKcalon tetangga dari masing-masingM(2l+1)2sketsa pelatihan
tambalan, ditunjukkan sebagaiX1Saya,J,…,XSKaya,J.Metode rekreasi ditulis sebagai regularisasi yang mudah
formulasi kuadrat-terkecil linier seperti yang diberikan dalam persamaan (9.5):

K 2

WSaya,J
, J−
di dalamSSaya
∑WX k k
Saya,Ji,jk=1 (9.5)
2
144◾Teknik Kecerdasan Buatan dalam Jaringan Sensor IoT

K
.T.Wk ∑
k=1
Saya,J=1

T
(
Di manaSaya,J= WSaya1,J ,…,WK Saya,J)adalah bobot rekreasi. Ini memiliki hasil bentuk tertutup seperti yang diberikan di
persamaan (9.6):

Saya′,J= (X T
Saya,J−1SSaya,J )((X T
Saya,J−1SSaya,J
))
T
/1 (9.6)

(Saya,J) (
=WSaya′,J/ 1TWSaya′,J )

Di manaX Saya,J
∈-P2×K adalah matriks dariKbertetangga dan 1 adalah vektor dari setiap 1S. Itu menciptakan kembali

tambalan sketsa Saya,Jseperti yang diberikan dalam persamaan (9.7):

K
ˆSaya,J=∑Saya
W,JXkSaya,Jk (9.7)
k=1

Akhirnya, setiap tambalan dibuat ulangSaya,J(1≤Saya≤R, 1≤J≤C) disusun menjadi sketsa lengkap
melalui rata-rata luas tumpang tindih.

9.3 VALIDASI KINERJA


Analisis eksperimental terperinci dilakukan pada dua database: IIT dan CUHK. Kumpulan sampel
gambar ditunjukkan pada Gambar 9.4.
Analisis kualitatif model FRCNN-GAN ditunjukkan padaGambar 9.5. Seperti yang digambarkan,
gambar tersebut menunjukkan bahwa model FRCNN-GAN telah menghasilkan gambar sketsa yang
sangat mirip dengan gambar masukan.
Tabel 9.1DanGambar 9.6Dan9.7menganalisis hasil FSS model FRCNN-GAN ditinjau dari
PSNR dan SSIM pada dua dataset yang diterapkan.
Gambar 9.6menunjukkan analisis PSNR dari model FRCNN-GAN pada dua dataset yang
diterapkan. Di t

GAMBAR 9.4Contoh gambar. (a) kumpulan data IIIT. (b) kumpulan data CUHK.
Model Jaringan untuk Sintesis Sketsa Wajah◾145

TABEL 9.1 Analisis Hasil FRCNN-GAN dengan Metode Eksisting Ditinjau dari PSNR dan SSIM
Metode
Himpunan data Pengukuran MRF MWF SRGS SCDL CNN FRCNN-GAN
CUHK PSNR 15.07 14.41 14.79 15.14 15.64 16.12
SSIM 0,58 0,59 0,58 0,59 0,59 0,62
IIIT PSNR 19.26 17.20 18.46 18.33 19.62 20.23
SSIM 0,54 0,57 0,59 0,58 0,61 0,65

dan model SRGS telah menunjukkan nilai PSNR minimum masing-masing sebesar 14,41 dan 14,79 dB.
Pada saat yang sama, model MRF dan SCDL menghasilkan nilai PSNR yang sedikit lebih tinggi, masing-
masing sebesar 15,07 dan 15,14 dB. Selain itu, model CNN menunjukkan kinerja yang lebih baik dengan
nilai PSNR yang tinggi yaitu 15,64 dB. Selanjutnya model FRCNN-GAN menghasilkan nilai PSNR yang lebih
tinggi yaitu 16,12 dB. Pada dataset IIIT yang diberikan, langkah-langkah eksperimental menunjukkan
bahwa kerangka kerja MWF dan SCDL telah menunjukkan nilai PSNR yang lebih rendah, masing-masing
sebesar 17,20 dan 18,33 dB. Pendekatan SRGS dan MRF menunjukkan nilai PSNR yang lebih baik masing-
masing sebesar 18,46 dan 19,26 dB. Selain itu, metode CNN sudah menunjukkan nilai yang cukup besar
dengan nilai PSNR yang tinggi yaitu 19,62 dB. Metode FRCNN-GAN telah menunjukkan nilai PSNR
maksimum 20,23 dB.
Gambar 9.7menyiratkan analisis SSIM dari metode FRCNN-GAN pada dua set data yang
diterapkan. Pada dataset CUHK yang disediakan, skor eksperimen menunjukkan bahwa metodologi
MRF dan SRGS telah menunjukkan nilai SSIM yang lebih rendah, masing-masing sebesar 0,58 dan
0,58 dB. Secara bersamaan, skema MWF, CNN, dan SCDL telah mencapai nilai SSIM yang lebih baik
dan sama yaitu 0,59 dB. Selain itu, pendekatan FRCNN-GAN telah memberikan nilai SSIM
maksimum sebesar 0,62 dB. Pada dataset IIIT yang diterapkan, nilai eksperimen menunjukkan
bahwa metodologi MRF dan MWF telah menunjukkan nilai SSIM yang lebih rendah masing-masing
sebesar 0,54 dan 0,57 dB. Secara bersamaan, kerangka kerja SRGS dan SCDL telah mencapai nilai
SSIM sedang masing-masing sebesar 0,59 dan 0,58 dB. Selain itu, teknologi CNN menyiratkan
kinerja yang dapat dikelola dengan nilai SSIM terbaik 0,61 dB. Juga, model FRCNN-GAN memiliki
pro

GAMBAR 9.5 (a) Masukkan gambar. (b) Sketsa yang dilihat. (c) Citra forensik. ( d ) Sketsa gambar sintesis.
146◾Palsu

GAMBAR 9.6Analisis PSNR model FRCNN-GAN pada dua dataset yang diterapkan.

Tabel 9.2DanAngka 9.8Dan9.9memeriksa analisis akurasi pendekatan FRCNN-GAN pada dua


dataset yang diterapkan.Gambar 9.8menggambarkan analisis akurasi metode FRCNN-GAN pada
dua dataset yang diterapkan. Pada dataset CUHK yang diterapkan, langkah-langkah eksperimental
memberi tahu bahwa metodologi SCDL dan MWF telah menunjukkan akurasi yang lebih rendah v

GAMBAR 9.7Analisis SSIM model FRCNN-GAN pada dua dataset yang diterapkan.
Model Jaringan untuk Sintesis Sketsa Wajah◾147

TABEL 9.2Analisis Akurasi FRCNN-GAN dengan


Metode Eksisting.
Metode CUHK IIIT Rata-rata

MRF 71.30 71.34 71.32


MWF 70.84 68.30 69,57
SRGS 72.45 72.40 72.43
SCDL 69,85 71,75 70,80
CNN 78.53 80.21 79.37
FRCNN-GAN 80.56 81.40 80.98

Pendekatan SRGS telah menawarkan nilai akurasi yang wajar masing-masing sebesar 71,30% dan
72,45%. Selain itu, pendekatan CNN menunjukkan fungsi sedang dengan nilai akurasi yang lebih
baik sebesar 78,53%. Selain itu, teknik FRCNN-GAN telah menyimpulkan dengan nilai akurasi
maksimum sebesar 80,56%. Pada dataset IIIT yang diterapkan, nilai eksperimen menunjukkan
bahwa model MRF dan MWF telah menggambarkan nilai akurasi yang lebih rendah masing-masing
sebesar 68,30% dan 71,34%. Selain itu, metodologi SCDL dan SRGS telah mencapai nilai akurasi
yang wajar masing-masing sebesar 71,75% dan 72,40%. Selain itu, pendekatan CNN menunjukkan
kinerja yang sedikit lebih baik dengan nilai akurasi maksimum 80,21%. Selain itu, pendekatan
FRCNN-GAN telah menunjukkan nilai akurasi yang luar biasa sebesar 81,40%.

Gambar 9.9menampilkan rata-rata analisis pendekatan FRCNN-GAN pada dua set data yang
diterapkan. Ini menyatakan bahwa nilai-nilai eksperimental menunjukkan bahwa model MWF dan SCDL
telah dipamerkan

GAMBAR 9.8Analisis akurasi model FRCNN-GAN pada dua dataset yang diterapkan.
148◾Buatan

GAMBAR 9.9Analisis rata-rata model FRCNN-GAN dengan metode yang ada.

Model MRF dan SRGS menghasilkan nilai rata-rata yang lebih baik masing-masing sebesar 71,32% dan
72,43%. Selain itu, pendekatan CNN telah menggambarkan fungsi yang cukup besar dengan nilai rata-
rata yang lebih tinggi yaitu 79,37%. Selain itu, kerangka kerja FRCNN-GAN telah menghasilkan nilai rata-
rata maksimum sebesar 80,98%.

9.4 KESIMPULAN
Bab ini telah mengembangkan IoT baru dan RCNN Lebih Cepat berkemampuan 5G
dengan GAN yang disebut model FRCNN-GAN untuk FSS. Model yang diusulkan awalnya
melibatkan proses pengambilan gambar menggunakan perangkat IoT yang terhubung
ke OpenMV Cam M7 Smart Vision Camera. Ini menangkap gambar dan menyimpannya
dalam memori. Kemudian, model FRCNN-GAN menjalankan proses pengenalan wajah
menggunakan model Faster RCNN yang mengidentifikasi wajah dengan benar pada
gambar yang diambil. Kemudian modul FSS berbasis GAN dilakukan untuk mensintesis
wajah yang dikenali dan menghasilkan sketsa wajah. Terakhir, sketsa wajah yang
dihasilkan dan sketsa yang ada di database forensik dibandingkan dan gambar yang
paling relevan diidentifikasi. Analisis eksperimen ekstensif dilakukan pada dua database:
kumpulan data IIT dan kumpulan data CUHK.

PENGAKUAN
Pekerjaan penelitian ini dilakukan dengan dukungan keuangan dari hibah hibah RUSA-Fase
2.0 Surat vide No. F. 24-51/2014-U, Kebijakan (TNMulti-Gen), Departemen Pendidikan,
Pemerintah India, 9.10.2018.
Model Jaringan untuk Sintesis Sketsa Wajah◾149

REFERENSI
1. CS Brown, Menyelidiki dan menuntut kejahatan dunia maya: ketergantungan forensik dan hambatan terhadap
keadilan.Int. J.Cyber Kriminol.9 (1) (2015) 55.
2. Y. Sun, X. Wang, X. Tang, Pembelajaran mendalam representasi wajah dari memprediksi 10.000
kelas, di:Prosiding Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola, 2014, hlm. 1891–
1898.
3.A. Krizhevsky, I. Sutskever, GE Hinton, klasifikasi ImageNet dengan jaringan saraf
konvolusional yang dalam, di:Prosiding Kemajuan dalam Sistem Pemrosesan Informasi
Neural, 2012, hlm. 1097–1105.
4. S. Klum, H. Han, AK Jain, B. Klare, Pengenalan wajah berbasis sketsa: sketsa forensik vs komposit,
dalam:Konferensi Internasional tentang Biometrik (ICB) 2013, 2013, Juni, IEEE, hlm. 1–8. 5. N. Wang,
X. Gao, J. Li, Pengambilan sampel acak untuk sintesis sketsa wajah cepat,Pengenalan Pola.76 (2018)
215–227.
6. P. Viola, M. Jones, Deteksi objek cepat menggunakan rangkaian fitur sederhana yang ditingkatkan,
dalam: Prosiding Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola (CVPR), IEEE, 1, 2001,
hlm. 511–518.
7.S. Liao, AK Jain, SZ Li, Detektor wajah tanpa kendala yang cepat dan akurat,Trans IEEE. Pola
Anal. Mesin Intell.38 (2) (2016) 211–223.
8. DE King, Dlib-ml: perangkat pembelajaran mesin,J.Mach. Mempelajari. Res.10 (2009) 1755–
1758. 9. X. Zhu, D. Ramanan, Deteksi wajah, estimasi pose, dan lokalisasi landmark di alam liar,
Prosiding Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola (CVPR), IEEE, 2012,
hlm. 2879–2886.
10. X. Shen, Z. Lin, J. Brandt, Y. Wu, Mendeteksi dan menyelaraskan wajah dengan pengambilan
gambar, dalam: Prosiding Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola, 2013, hlm.
3460–3467.
11. D. Chen, S. Ren, Y. Wei, X. Cao, J. Sun, Joint cascade face detection and alignment, in: Prosiding
Konferensi Eropa tentang Computer Vision, Springer, 2014, hlm. 109–122. 12. S. Zhan, QQ
Tao, XH Li, Deteksi wajah menggunakan pembelajaran representasi,Neurokomputer187 (2016)
19–26.
13. Y. Li, B. Sun, T. Wu, Y. Wang, Deteksi wajah dengan integrasi ujung ke ujung ConvNet dan model 3D,
dalam:Konferensi Eropa tentang Visi Komputer, Springer, Cham, 2016, hlm. 420–436.
14.H. Jiang, E. Learned-Miller, Deteksi wajah dengan R-CNN yang lebih cepat, di:Pengenalan Wajah &
Gerakan Otomatis (FG 2017), Konferensi Internasional IEEE ke-12 2017 tentang IEEE, 2017, hlm.
650–657.
15. H. Qin, J. Yan, X. Li, X. Hu, Pelatihan bersama CNN mengalir untuk deteksi wajah, di:Prosiding
Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola, 2016, hlm. 3456–3465. 16. D. Lu, Z.
Chen, QJ Wu, X. Zhang, pemrosesan awal berbasis FCN untuk sintesis sketsa wajah berbasis contoh,
Neurokomputer365 (2019) 113–124.
17. L. Ye, B. Zhang, M. Yang, W. Lian, Triple-translation GAN dengan representasi jarang multilayer
untuk sintesis gambar wajah.Neurokomputer358 (2019) 294–308.
18. L. Jiao, S. Zhang, L. Li, F. Liu, W. Ma, jaringan saraf konvolusional yang dimodifikasi untuk sintesis
sketsa wajah,Pengenalan Pola. 76 (2018) 125–136.

Anda mungkin juga menyukai