1 SM

ISSN : 2355-9365 e-Proceeding of Engineering : Vol.10, No.
2 April 2023 | Page 1808
Klasifikasi Gender Berdasarkan Citra

Wajah Menggunakan Vision Transformer
1st Ganjar Gingin Tahyudin 2nd Ema Rachmawati 3rd Mahmud Dwi Sulistiyo
Fakultas Informatika Fakultas Informatika Fakultas Informatika
Universitas Telkom Universitas Telkom Universitas Telkom
Bandung, Indonesia Bandung, Indonesia Bandung, Indonesia
ganjarggt@students.telkomunivers emarachmawati@telkomuniversity mahmuddwis@telkomuniversity.a
ity.ac.id .ac.id c.id
Abstrak-Gender seseorang dapat dilihat salah Recall 0.8189, and F1 Score of 0.8189 on Cross-Dataset
satunya secara visual berdasarkan citra wajah Evaluation testing.
manusia. Selain itu, dengan kemajuan teknologi saat
ini, komputer juga dapat melakukan klasifikasi gender Keywords- transformer, vision transformer,
berdasarkan data yang dilatih. Proses klasifikasi gender classification, image processing, computer
gender menggunakan komputer dapat diaplikasikan vision.
terhadap berbagai sektor seperti industri atau
pemerintahan. Pada penelitian sebelumnya, terdapat I. PENDAHULUAN
berbagai metode konvensional yang digunakan untuk A. Latar Belakang
melakukan klasifikasi citra, khusus klasifikasi gender Pada era perkembangan teknologi visi
berdasarkan citra wajah, namun sebagian besar tidak
melakukan Cross-Dataset Evaluation untuk melakukan
komputer yang sudah maju seperti sekarang, sistem
uji performa terhadap model yang dihasilkan. Tugas yang dapat melakukan kegiatan monitoring
akhir ini akan membahas bagaimana melakukan meningkat hingga menjadi salah satu aspek penting
klasifikasi gender berdasarkan citra wajah dalam kehidupan manusia. Beberapa contohnya
menggunakan metode Vision Transformer seperti gesture recognition, body tracking, face
menggunakan dataset AFAD sebagai dataset training recognition, age estimation, dan gender
dan melakukan Cross-Dataset Evaluation terhadap classification. Beberapa contoh implementasi visi
model yang dihasilkan menggunakan dataset komputer tersebut dapat meningkatkan sektor
UTKFace. Model yang dibangun berhasilkan kehidupan seperti smart building yang dapat
mendapatkan akurasi validasi sebesar 0,9676 dan
akurasi testing sebesar 0,9661 pada pengujian training
memberikan akses terbatas hanya pada gender
atau Same-Dataset serta mendapatkan akurasi 0,8174, tertentu serta pengambilan beberapa data demografi
Precision 0,8188, Recall 0,8189, dan F1 Score sebesar [1].
0,8189 pada pengujian Cross-Dataset Evaluation. Pada kesempatan sebelumnya, terdapat
beberapa penelitian mengenai klasifikasi gender.
Kata kunci- transformer, vision transformer, Liew, dkk [2] menggunakan metode Convolutional
gender classification, image processing, computer Neural Network untuk melakukan klasifikasi gender.
vision. Asmara, dkk [3] berhasil melakukan klasifikasi
gender menggunakan metode Naive Bayes.
Abstrac-tGender from a person can be seen visually
based on the face image. In addition, with current
Kemudian, Mohamed, dkk [4] berhasil melakukan
technological advances, computers can also perform klasifikasi gender dengan beberapa fitur wajah dan
gender classification based on trained data. The process klasifikasi menggunakan metode K-Nearest-
of gender classification using computers can be applied Neighbor. Selanjutnya Azzopardi, dkk [5] dengan
to various sectors such as industry or government. In melakukan ekstraksi fitur mata, pipi, dan mulut pada
previous studies, there were various conventional wajah yang diklasifikasi menggunakan metode
methods used to classify images, specifically gender Support Vector Machine. Selain itu Tianyu, dkk [6]
classification based on facial images, but most of them berhasil menggunakan metode Multi-Block Local
did not carry out Cross-Dataset Evaluation to test the Binary Pattern untuk melakukan ekstraksi fitur dan
performance of the resulting model. This final project
will discuss how to perform gender classification based
Support Vector Machine untuk melakukan
on facial image using the Vision Transformer method klasifikasi.
using the AFAD dataset as a training dataset and Selain itu, penggunaan Deep Learning
conducting a Cross-Dataset Evaluation of the resulting menggunakan Convolutional Neural Network
model using the UTKFace dataset. The model that was menjadi metode yang biasanya digunakan untuk
built managed to get a validation accuracy of 0.9676 and kasus computer vision [15]. Berdasarkan penelitian
a testing accuracy of 0.9661 on the training test or Same- [12] metode Vision Transformer dapat digunakan
Dataset and get an accuracy of 0.8174, Precision 0.8188, untuk melakukan tugas klasifikasi citra. Metode
Vision Transformer bekerja dengan mekanisme self-
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.10, No.2 April 2023 | Page 1809
attention yaitu dengan melihat keterkaitan satu Proses kajian pustaka pada tugas
elemen dengan elemen lainnya [11]. Tugas akhir ini akhir ini adalah kegiatan untuk
akan menguji performa metode tersebut pada mempelajari berbagai teori yang
masalah klasifikasi gender berdasarkan citra wajah sebelumnya akan digunakan pada tugas
karena berdasarkan penelitian yang dilakukan akhir ini, khususnya teori yang berkaitan
Alexey, dkk.[12] metode tersebut berhasil dengan sistem yang akan di bangun seperti
mendapatkan performa melampaui metode state-of- mengenai citra digital, Deep Learning,
the-art sebelumnya [12]. Transformer, dan Vision Transformer.
B. Perumusan Masalah 2. Pengumpulan Data
Berdasarkan latar belakang sebelumnya, Proses pengumpulan data pada
perumusan masalah yang ada pada tugas akhir ini tugas akhir ini adalah kegiatan untuk
adalah bagaimana membangun sistem klasifikasi mengumpulkan data yang akan digunakan
gender berdasarkan citra wajah menggunakan selama proses tugas akhir, khususnya
metode Vision Transformer. dataset yang akan digunakan untuk proses
C. Tujuan training dan Cross-Dataset Evaluation.
Tujuan tugas akhir ini adalah merancang, 3. Perancangan Sistem
membangun dan menganalisis performa serta tingkat Proses perancangan sistem pada
misclassified berdasarkan umur dan ras pada kasus tugas akhir ini adalah kegiatan untuk
klasifikasi gender berdasarkan citra wajah melakukan perancangan secara garis besar
menggunakan metode Vision Transformer. mengenai sistem yang akan dibangun
D. Batasan Masalah selama tugas akhir.
Beberapa batasan masalah yang ada pada
4. Pengujian Tugas Akhir
tugas akhir ini adalah sebagai berikut:
Proses pengumpulan data pada
1. Menggunakan dataset AFAD (Asian Face tugas akhir ini adalah kegiatan untuk
Age Dataset) sebagai data training. melakukan pengujian berdasarkan model
2. Menggunakan dataset UTKFace untuk yang sebelumnya sudah dirancang dan
melakukan proses Cross-Dataset dataset yang sudah ditentukan.
Evaluation untuk menganalisis performa
model.
5. Analisis Hasil dan Penulisan Laporan
Tugas Akhir
3. Citra yang digunakan adalah citra wajah
Proses analisis hasil tugas akhir
tanpa bagian tubuh lainnya.
adalah kegiatan untuk melakukan penulisan
E. Kegiatan Penelitian
laporan analisis hasil pengujian
Pada tugas akhir ini penulis merancang
berdasarkan pengujian sebelumnya guna
beberapa kegiatan yang sebelumnya akan
untuk mendapat kesimpulan tugas akhir.
direncanakan agar proses tugas akhir menjadi lebih
F. Jadwal Kegiatan
sistematis. Berikut adalah rencana kegiatan yang ada
Berikut adalah rencana jadwal kegiatan
pada tugas akhir ini :
yang akan dilaksanakan pada tugas akhir ini :
1. Kajian Pustaka
TABEL 1.
JADWAL RENCANA KEGIATAN PENGERJAAN
Kegiatan Bulan
1 2 3 4 5
Kajian Pustaka
Pengumpulan Data
Perancangan Sistem
Pengujian dan Evaluasi Sistem
Penulisan Laporan
II. KAJIAN PUSTAKA yang berisi 836 citra serta melakukan ekstraksi
beberapa bagian wajah seperti mata, pipi, dan mulut
A. Penelitian Terkait yang diklasifikasi menggunakan metode SVM
Pada kesempatan sebelumnya, terdapat menghasilkan akurasi sebesar 96,4%.
beberapa penelitian mengenai klasifikasi gender. Selain itu Tianyu, dkk [6] menggunakan
Liew, dkk [2] berhasil mendapatkan sebesar akurasi dataset Fowl face library dan metode Multi-Block
99,38% dengan menggunakan metode Convolutional Local Binary Pattern untuk melakukan ekstraksi
Neural Network dan dataset AT&T face database fitur, serta Support Vector Machine untuk
yang berisi 400 citra wajah serta citra yang melakukan klasifikasi berhasil mendapatkan akurasi
berukuran 32 x 32 pixel. sebesar 94,7%.
Asmara, dkk [3] berhasil melakukan Tugas akhir ini menawarkan metode Vision
klasifikasi gender menggunakan metode Naive Transformer untuk klasifikasi gender berdasarkan
Bayes yang menghasilkan akurasi 80% pada dataset citra wajah. Metode Vision Transformer adalah
yang berjumlah 300 citra. Mohamed, dkk [4] salah satu alternatif metode Deep Learning yang
melakukan klasifikasi gender menggunakan FERET menggunakan model Transformer [12]. Berdasarkan
dataset yang berisi 485 dan ESSEX database yang penelitian yang dilakukan Alexey, dkk [12] metode
berisi 153 citra serta ukuran citra sebesar 32x32 Vision Transformer dapat menghasilkan performa
pixel berhasil mendapatkan akurasi sebesar 99,3% yang lebih baik dibandingkan dengan model state-
dengan mengekstrak beberapa fitur wajah yang of-the-art Deep Learning lainnya pada kasus
kemudian diklasifikasi menggunakan metode K- klasifikasi citra.
Nearest-Neighbor. Kemudian Azzopardi, dkk [5] B. Citra Digital
menggunakan dataset GENDER-COLOR-FERET
( , ) ⋯ ( , − )
( , )= ⋮ ⋱ ⋮ (1)
( − ,) ⋯ ( − , − )
Sebuah citra adalah sekumpulan nilai-nilai yang digunakan untuk membangun suatu model
real yang didefinisikan sebagai fungsi f(x,y) dimana Deep Learning yang baik dengan terus mengurangi
nilai x dan y adalah suatu koordinat dan nilai fungsi f jumlah validation error pada saat proses training.
pada pasangan (x,y) disebut sebagai nilai intensitas Data augmentation sendiri dapat mengatasi
atau tingkat grayscale pada titik tersebut. Sebuah permasalahan klasik yang terdapat pada model Deep
citra dapat dikatakan sebagai citra digital apabila Learning seperti overfitting [9]. Overfitting sendiri
citra tersebut memiliki nilai x, y, dan intensitas yang adalah keadaan akurasi yang dihasilkan pada saat
finite atau terbatas [8]. Persamaan 1 adalah bentuk proses training model sangat tinggi dan akurasi yang
representasi citra digital yang berukuran × . dihasilkan pada saat validation rendah [10].
C. Data Augmentation
Data augmentation adalah salah satu teknik
GAMBAR 1.
CITRA HASIL AUGMENTASI
Tujuan data augmentation adalah Beberapa contoh proposes data augmentation adalah
menyelesaikan masalah overfitting yang berada pada geometric and color transformation, random
training dataset. Permasalahan tersebut dapat erasing, random zoom, dan random flip [10].
diselesaikan dengan melakukan ekstraksi data yang Gambar 1 adalah salah satu contoh citra hasil dari
berasal dari training dataset melalui augmentation. proses data augmentation.
Mekanisme augmentation akan membuat dataset D. Log Softmax
buatan yang bersumber dari training dataset Pada Deep Learning, sebuah deep neural
sehingga jumlah training dataset dapat meningkat. network menggunakan fungsi softmax untuk
mempelajari probability distribution pada M kelas matrix pada output layer, maka output dari sebuah
dengan pada input x dengan ( | ) dan fungsi softmax yang merepresentasikan
adalah parameternya. Apabila ℎ( ) adalah kemungkinan pada index ke-i adalah sebagai berikut
sebuah hidden vector dan sebagai weight [16]:
([ ( )] )
( | )=[ ℎ( ) ] = ∑ ([ ( )] )
(2)
Nilai dari [ ] merepresentasikan elemen Untuk melakukan training pada model

ke-i pada . Nilai dari sendiri memiliki rentang berhasis softmax, sebuah fungsi negative likelihood
dari 0 – 1 karena output dari operasi tersebut adalah (cross entropy) [16] digunakan sebagai loss function.
eksponensial yang nonnegative. Selain itu, hasil Pada loss function, meminimalkan gradient pada
perhitungan dari seluruh elemen adalah 1. Dari stochastic gradient descent adalah hal yang sangat
hal tersebut dapat diketahui bahwa output dari penting [16]. Perhitungan gradient untuk log-
softmax yang dilatih adalah dengan meminimalkan softmax adalah sebagai berikut dengan = ℎ( )
negative log-likelihood [16]. dan adalah input untuk element ke-j.
[ ( )] 1 − [ ( )] , =
= (3)
−[ ( )] , ≠
E. Negative Log Likelihood loss function informasi, noise inference, atau karena probability
Resiko terjadinya missclassified pada process [17]. Resiko akan terjadinya hal tersebut
proses klasifikasi terjadi karena kekurangan dapat dituliskan sebagai berikut :
( )= ∑ ( ( ), ) (4)
Dengan m adalah training sample, f fungsi prediksi model dan label sebenarnya serta dapat
untuk prediksi, x input vector, y kelas label, dan diminimalkan dengan menggunakan metode
L(f(x), y) adalah sebuah loss function. Sebuah loss stochastic gradient descent [17]. Dengan C adalah
function pada model Deep Neural Network bersifat target kelas atau label sebenarnya, x feature vector
fleksibel, sebagai contoh cross-entropy biasanya input, maka sebuah cross-entropy loss function dapat
digunakan karena menghitung perbedaan dari hasil ditulis sebagai berikut:
( ( ), ) = − ̂( | ) (5)
Selain itu, feature distribution p(x) dan uniform, berdasarkan Bayesian inference, Persamaan
class distribution p(y) tidak relevan terhadap 5 dapat ditulis sebagai berikut [17] :
parameter model serta diasumsikan distribusi yang
( ( ), ) = − ̂( | ) (6)
Persamaan 6 diatas adalah sebuah negative Kemudian pada block decoder, diberikan sehingga
log likelihood loss function pada sampel x. dihasilkan output berupa ( , . . . , ) per elemen
pada satu waktu secara kontinu. Setiap langkah
F. Transformer tersebut bersifat autoregressive dan simbol yang
Pada awalnya Transformer adalah model akan sebelumnya sudah dibuat akan digunakan
yang diusulkan untuk kasus Natural Language sebagai input pada iterasi selanjutnya [11].
Processing, model tersebut dikenalkan pada tahun Transformer adalah suatu sequence atau
2017 dan menjadi model yang berstatus state-of-the- deep learning model yang menggunakan metode
art untuk kasus Natural Language Processing[13]. stacked self-attention dan pointwise. Kemudian
Model Transformer mengikuti konsep encoder- setiap block self-attention yang tersambung dengan
decoder. Lapisan encoder bekerja sebagai penerima fully connected layers pada setiap barisan encoder
input kontinu yang disimbolkan sebagai ( , . . . , ) dan decoder [11].
dan kemudian melakukan operasi mapping input G. Vision Transformer
tersebut sehingga dihasilkan = ( , . . . , ).
GAMBAR 2.
ARSITEKTUR VISION TRANSFORMER [13]
Sebuah citra, khususnya citra digital pada dengan self-attention, tidak mungkin dilakukan
dasarnya memiliki struktur ( , ) dan nilai proses input per-pixel karena jumlahnya akan sangat
intensitasnya, setiap titik tersebut adalah satuan besar, karena setiap pixel harus berjumpa dengan
terkecil dari citra digital yang biasanya disebut pixel lainnya sehingga dihasilkan nilai kuadrat yang
sebagai pixel. Kemudian, pada model Transformer sangat besar [12].
GAMBAR 3.
CONTOH PERUBAHAN CITRA KE 1D VECTOR
Agar sebuah citra digital dapat menjadi digital yang sebelumnya telah dimodifikasi. Apabila
input pada model Vision Transformer yang memiliki adalah anggota . , , dan sebagai
input berupa 1D vector, maka proses modifikasi tinggi, lebar, dan jumlah channel pada citra,
dibutuhkan terhadap citra. Pada Gambar 2 terlihat kemudian patchesnya adalah yang didefinisikan
bahwa sebuah citra dipecah menjadi beberapa pada Persamaan (7) yang merupakan resolusi setiap
bagian kecil. Pertama sebuah citra digital tersebut patches.
diubah menjadi beberapa 2D patches, patches
tersendiri merupakan potongan-potongan citra
×( × )
(7)
= × (8)
Selanjutnya, pada Persamaan (8), adalah banyaknya jumlah patches yang dihasilkan. Namun
untuk menjadi input bagi model Transformer yang Selanjutnya, positional embedding
memiiliki constant latent D pada semua layer nya, ditambahkan pada setiap patch embedding agar
patches yang dihasilkan harus berukuran 1D vector patches hasil operasi pada Transformer yang
yang konstan, sehingga dibutuhkan operasi flattened memilliki depth sebanyak L layer tetap berurutan.
dan mapping patches tersebut ke dalam bentuk 1D Sebuah token yang merupakan label dari setiap kelas
vector menggunakan trainable linear projection ditambahkan pada patches pertama dan proses
Persamaan (9). Hasil pada operasi disini adalah klasifikasi diimplementasikan oleh Multi Layer
patch embedding yang dituliskan sebagai E pada Perceptron Persamaan (10) dan Persamaan (11)
Persamaan (9) [12]. [12].
= ; ; ;...; ; + , ℜ . × , ℜ( )× (9)
′ = (ln( )) + , = 1. . . ( 10 )
′ = (ln( ′ )) + ′ , = 1. . . ( 11 )
= ln( ) ( 12 )
Transformer encoder sendiri terdiri atas III. METODE
beberapa Multi Self-Attention Persamaan (10), Multi Tugas akhir ini menggunakan metode
Layer Perceptron, dan Layer normalization. model Vision Transformer untuk melakukan
Sebelum dilakukan operasi, sebuah Layer klasifikasi gender terhadap citra wajah yang
Normalization (LN) diaplikasikan Persamaan (10) diberikan. Setiap citra wajah yang ada pada dataset
dan Persamaan (11) sehingga menghasilkan prediksi training sebelumnya telah diberi label. Untuk
y sesuai pada Persamaan (12) [12]. penjelasannya mengenai sistem yang akan dibangun
terdapat pada Gambar 4.
GAMBAR 4.
FLOWCHART PROSES TRAINING DAN CROSS-DATASET EVALUATION
A. Input Data
GAMBAR 5.
CONTOH DATASET AFAD
Tugas akhir ini menggunakana dataset adalah dataset yang berisi citra wajah dengan jumlah
AFAD sebagai training dataset. AFAD sendiri 165.432 citra wajah yang terdiri dari 63.680 citra
wajah dengan kelas wanita serta 100.752 citra wajah data preprocessing.
dengan kelas pria. Gambar 5 adalah contoh citra C. Pembangunan model
dataset AFAD. Pada tahap ini dilakukan proses training
Pada dataset tersebut citra wajah bersifat menggunakan metode Vision Transformer. Citra
close up sehingga yang tampak sebagian besar hanya dikelompokkan berdasarkan train data dan test data.
bagian wajah saja. Proses training pada tugas akhir ini dibagi menjadi
B. Data Preprocessing beberapa skenario yaitu citra dengan ukuran
Tugas akhir ini menggunakan teknik 160x160 pixel dengan ukuran patches 10, 160x160
preprocessing terhadap training data, yaitu dengan pixel dengan ukuran patches 20, 224x224 pixel
melakukan random rotation, random zoom, dan dengan ukuran patches 14, dan 224x224 pixel
random horizontal flip. Pada penelitian [8] dapat dengan ukuran patches 16.
dihasilkan performa yang cukup baik setelah proses D. Cross-dataset Evaluation
GAMBAR 6.
CONTOH DATASET UTKFACE.
Setelah melakukan training menggunakan kinerja sistem pada tugas akhir ini adalah
AFAD dataset, proses selanjutnya adalah melakukan confusion matrix, F1 Score, precision, dan recall.
Cross-dataset Evaluation terhadap dataset UTKFace
yang berisi 11.316 citra wajah pria dan 12.392 citra 1. Confusion Matrix
wajah wanita untuk mengetahui performa model Confusion matrix adalah yang digunakan
yang sesungguhnya dengan melakukan evaluasi untuk mengukur hasil klasifikasi berdasarkan hasil
terhadap dataset UTKFace yang memiliki domain true positive, false positive, false negative, dan true
sama, yaitu citra wajah. negative. Gambar 7 adalah gambaran sederhana
Output yang dihasilkan pada proses ini confusion matrix. Pada gambar tersebut Actual
adalah metrik pengukuran performa yang terdiri dari Value adalah label sebenarnya dari data sedangkan
Confusion Matrix, Precision, Recall, dan F1-Score. Predicition Value adalah label hasil prediksi.
E. Metrik Pengukuran
Metrik yang digunakan untuk mengukur
GAMBAR 7.
CONFUSION MATRIX [15]
2. Accuracy negatif. Accuracy digunakan untuk melihat

Accuracy adalah rasio yang bagaimana model dapat melakukan prediksi secara
membandingkan antara true positive dan true benar. Nilai accuracy dapat dihasilkan
negative terhadap seluruh hasil prediksi positif dan menggunakan Persamaan (12) [18].
( )
= ( )
( 13 )
Sebagai contoh nilai precision dapat
3. Precision digunakan untuk melihat rasio seluruh hasil prediksi
Precision adalah rasio yang yang terprediksi sesuai dengan labelnya. Nilai
membandingkan antara hasil prediksi true positive precision dapat dihasilkan menggunakan Persamaan
dengan seluruh hasil prediksi positive. Metrik (14) [18].
precision digunakan untuk menghitung
perbandingan seluruh hasil prediksi positif.
= ( 14 )
4. Recall yang benar. Sebagai contoh nilai recall dapat

Recall adalah rasio yang membandingkan digunakan untuk melihat rasio seluruh hasil prediksi
antara hasil prediksi true positif dengan seluruh hasil yang sesuai dengan labelnya. Nilai recall dapat
prediksi yang benar. Metrik recall digunakan untuk dihasilkan menggunakan Persamaan (15) [18].
menghitung perbandingan seluruh hasil prediksi
= ( 15 )
5. F1 Score dapat dihasilkan menggunakan Persamaan (16) [18].

F1 Score adalah bobot perbandingan rata-
rata antara hasil precision dan recall. Nilai F1 Score
∗( ∗ )
1 = ( 16 )
IV. HASIL DAN PEMBAHASAN model dengan metrik akurasi tertinggi dan terendah.
Bab ini akan membahas hasil pengujian
berdasarkan beberapa skenario sebelumnya, A. Pengujian terhadap Same-Dataset
pengujian tersebut meliputi pengujian terhadap Pengujian yang dilakukan adalah pengujian
Same-Dataset atau dataset yang digunakan pada akurasi yang dihasilkan sistem setelah melakukan
training serta Cross-Dataset atau dataset yang proses training data. Terdapat total 8 skenario
berbeda namun memiliki domain yang sama dengan pengujian yang melibatkan ukuran dan patch size
dataset training. Representasi hasil kuantitatif yang nya. Citra 224x224 pixel dengan patch size 16, 32,
digunakan adalah metrik akurasi validasi dan testing dan 14, citra 160x160 pixel dengan patch size 10 dan
serta representasi hasil kualitatif yang digunakan 20. Gambar 8 adalah contoh citra yang memiliki
adalah menampilkan perbandingan prediksi antara ukuran 224x224 pixel dan patch 14.
GAMBAR 8.
CONTOH CITRA UKURAN 224X224 PIXEL DENGAN PATCH 14.
Nilai hyperparameter yang digunakan pada depth 12. Dataset yang digunakan pada proses
pengujian kali ini adalah learning rate sebesar training adalah AFAD dataset, yaitu jumlah 165.432
0,001, epochs sebesar 100, dan transformer layer citra wajah yang terdiri dari 63.680 citra wajah
dengan kelas wanita serta 100.752 citra wajah dengan label pria dan 3208 citra dengan label
dengan kelas pria. Dataset tersebut dibagi menjadi wanita.
90% data untuk training yang berisi 91300 citra 1. 1. Hasil Kuantitatif
dengan label pria dan 57700 citra dengan label Tabel 2 adalah hasil kuantatif dari proses
wanita, 5% untuk validation yang berisi 5190 citra pengujian Same-Dataset atau dataset yang
dengan label pria serta 3086 citra dengan label digunakan pada proses training. Metrik yang
wanita, dan 5% untuk test yang berisi 5067 citra digunakan adalah akurasi validation dan testing.
TABEL 2.
HASIL PERCOBAAN PROSES TRAINING TERHADAP UKURAN CITRA DAN PATCH
Ukuran citra patch size Akurasi validation Akurasi test
224 x 224 8 0,9639 0,9631
224 x 224 14 0,9667 0,9644

224 x 224 16 0,9633 0,9622
224 x 224 28 0,9492 0,9843
224 x 224 32 0,9381 0,9362

160 x 160 8 0,9676 0,9661
160 x 160 10 0,9628 0,9598
160 x 160 16 0,9609 0,9610
160 x 160 20 0,9485 0,9460
160 x 160 32 0,9196 0,9154
Berdasarkan Tabel 2, nilai akurasi training model yang dihasilkan cenderung mengalami
validation diperolah saat menggunakan ukuran citra penurunan.
160x160 dan ukuran patch 8 yaitu sebesar 0,9676.
Selain itu, akurasi validation terendah diperoleh saat
menggunakan citra dengan ukuran 160x160 dan
ukuran patch sebesar 32 yaitu sebesar 0,9196.
Kemudian, nilai akurasi test tertinggi diperolah saat
menggunakan ukuran citra 160x160 dan ukuran
patch 8 yaitu sebesar 0,9661. Selain itu, akurasi test 2. Hasil Kualitatif
terendah diperoleh saat menggunakan citra dengan Gambar 9 adalah representasi hasil
ukuran 160x160 dan ukuran patch sebesar 32 yaitu kualitatif dari proses pengujian Same-Dataset atau
sebesar 0,9154. Berdasarkan Tabel 2, semakin besar dataset yang digunakan pada proses training.
ukuran patch yang digunakan, akurasi atau performa
GAMBAR 9.
HASIL KUALITATIF DARI SKENARIO CITRA BERUKURAN 160X160 PIXEL DAN PATCH 8 SERTA SKENARIO CITRA
BERUKURAN 160X160 PIXEL DAN PATCH 32
B. Hasil pengujian Cross-Dataset Evaluation

Model yang sebelumnya telah melalui
proses training selanjutnya akan diujikan
menggunakan Teknik Cross-Dataset Evaluation
yaitu pada dataset lain yang memiliki domain sama,
yaitu citra wajah. Dataset yang digunakan untuk
melakukan Cross-Datasaet Evaluation adalah
UTKFace Dataset yang berisi 26.132 citra wajah.
1.Confusion matrix
Model yang dihasilkan dengan metode
Vision Transformer terbukti dapat melakukan
klasifikasi citra berdasarkan citra wajah. Terlepas
dari performa yang sudah cukup baik, model yang
sudah dilatih menggunakan dataset AFAD yang
berisi 165.432 citra wajah yang terdiri dari 63.680
citra wajah dengan kelas wanita serta 100.752 citra
wajah dengan kelas pria tersebut memang tetap
mengalami misclassified. Untuk lebih memahami bagaimana
Dari hasil yang diperoleh pada Gambar 10 mengevaluasi model pada Tugas Akhir ini, berikut
memperlihatkan bahwa model dapat melakukan ditunjukkan salah satu contoh perhitungan metrik-
klasifikasi gender berdasarkan citra wajah, namun metrik evaluasi yang digunakan, berdasarkan contoh
memang pada Gambar
terdapat 10 untuk
beberapa skenario
misclassified. 224-pixel, patch
14 (perhatikan
bagian kanan
bawah).
GAMBAR 10.
CONFUSION MATRIX HASIL UJI KLASIFIKASI GENDER PADA DATASET UTKFACE
a. Akurasi
+
= = ,
+ + +
b. Precision
= = ,
+
= = ,
+
, + ,
= = ,
c. Recall
= = ,
+
= = ,
+
, + ,
= = ,
d. F1 Score
, ∗ ,
= ∗ = ,
, + ,
2.
Tingkat misclassified tertinggi untuk kasus 3. 2. Hasil Kuantatif
model melakukan prediksi gender pria, namun label Setelah model melalui proses training,
sebenarnya adalah wanita adalah pada skenario citra berikutnya adalah pengujian perfomasi masing-
dengan ukuran 224x224 pixel dan patch 32, masing model menggunakan metrik accuracy,
sedangkan tingkat misclassified tertinggi untuk precision, recall, dan F1-Score. Tabel 3 adalah hasil
kasus model mendapatkan prediksi wanita, namun pengujian yang dilakukan berdasarkan skenario
label sebenarnya adalah pria adalah pada skenario sebelumnya.
citra dengan ukuran 160x160 pixel dan patch 10.
TABEL 3.
HASIL CROSS-DATASET EVALUATION
Ukuran citra patch size Accuracy Precision Recall F1 Score
224 x 224 8 0,8096 0,8096 0,8085 0,8089
224 x 224 14 0,8174 0,8188 0,8189 0,8189

224 x 224 16 0,8032 0,8109 0,8066 0,7983
224 x 224 28 0,7854 0,7921 0,7886 0,7903
224 x 224 32 0,7734 0,7734 0,7740 0,7737
160 x 160 8 0,8061 0,8070 0,8074 0,8072
160 x 160 10 0,7820 0,8050 0,7999 0,8024
160 x 160 16 0,7810 0,7814 0,7819 0,7817
160 x 160 20 0,7915 0,7947 0,7938 0,7942
160 x 160 32 0,6789 0,6970 0,6857 0,6913
14, dan F1-Score tertinggi adalah 0,8189 dengan

Berdasarkan hasil yang diperoleh pada citra 224x224 pixel dan ukuran patch 14.
Tabel 3, nilai akurasi tertinggi diperoleh adalah saat Selain itu, akurasi terendah diperoleh
menggunakan ukuran citra 224x224 dan ukuran adalah 0,6789 saat menggunakan citra dengan
patch 14 yaitu sebesar 0,8174, Precision tertinggi ukuran 160x160 dan ukuran patch 32, selanjutnya
adalah 0,8188 dengan citra 224x224 pixel dan patch precision terendah yang diperoleh adalah 0,6970 saat
size 14, nilai recall tertinggi yang diperoleh adalah menggunakan citra 160x160 pixel dan ukuran patch
0,8189 dengan citra 224x224 pixel dan ukuran patch 32, kemudian nilai recall terendah yang diperoleh
adalah 0,6857 saat menggunakan citra 160x160 3. Hasil Kualitatif

pixel dan ukuran patch 32, dan nilai F1-Score Gambar 11 adalah representasi hasil
terendah adalah 0,6913saat menggunakan citra kualitatif dari proses pengujian Cross-Dataset atau
160x160 pixel dan ukuran patch 32. dataset yang berbeda dengan training dataset namun
memiliki domain yang sama.
GAMBAR 11.
HASIL KUALITATIF DARI SKENARIO CITRA BERUKURAN 22X224 PIXEL DAN PATCH 14 SERTA SKENARIO CITRA
BERUKURAN 160X160 PIXEL DAN PATCH 32
4. Hasil Analisis hasil misclassified pada citra dengan ukuran 224x224 pixel dan
skenario Cross-Dataset Evaluation terbaik patch 14 mendapatkan nilai akurasi yang
Berdasarkan confusion matrix pada Gambar paling tinggi serta memiliki tingkat
11 dan Tabel 3, diketahui bahwa skenario misclassified terendah.
GAMBAR 12.
STATISTIK KESALAHAN KLASIFIKASI YANG DIKELOMPOKKAN BERDASARKAN RAS. SKENARIO YANG DIGUNAKAN
PADA EKSPERIMEN INI ADALAH UKURAN CITRA 224X224 PIXEL DAN PATCH 14
GAMBAR 13.
CONTOH CITRA MISCLASSIFIED DENGAN LABEL RAS WHITE ATAU KULIT PUTIH PADA SKENARIO UKURAN CITRA
224X224 PIXEL DAN PATCH 14
india, serta citra bayi atau anak kecil yang memang
Berdasarkan Gambar 12, model yang dihasilkan sulit dibedakan juga menjadi penyebab terjadinya
cenderung cenderung mengalami misclassified misclassified pada model yang dihasilkan. Pada
ketika melakukan klasifikasi pada citra dengan label Gambar 13 terlihat beberapa contoh citra yang
ras kulit putih atau white. Selain itu dataset yang mengalami misclassified untuk citra dengan label ras
tidak memiliki data dengan label ras kulit putih dan kulit putih atau white.
GAMBAR 14.
STATISTIK KESALAHAN KLASIFIKASI YANG DIKELOMPOKKAN BERDASARKAN USIA.PADA SKENARIO UKURAN CITRA
Selain itu, tingkat misclassified pada citra dengan lainnya. Berdasarkan Gambar 14, model yang
label anak-anak atau pada kasus ini ditulis dengan dihasilkan cenderung mengalami misclassified
citra yang memiliki label umur 0 - 10 tahun memang ketika melakukan klasifikasi pada citra dengan label
lebih besar dibandingkan citra dengan label umur umur 0 - 10 tahun.
5.2.
GAMBAR 15.
CONTOH CITRA MISCLASSIFIED DENGAN LABEL USIA 0 - 10 TAHUN PADA SKENARIO UKURAN CITRA
Berdasarkan Gambar 15, gender pada citra B. Saran
wajah dengan usia 0 - 10 tahun relatif sulit Saran yang dapat diberikan berdasarkan
dibedakan, bahkan manusia seringkali sulit hasil percobaan pada Tugas Akhir ini adalah sebagai
membedakan gender pada wajah bayi. Selain itu, berikut :
AFAD dataset yang digunakan untuk training juga 1. Menambahkan dataset citra dengan label
tidak memiliki data citra wajah anak kecil ataupun umur 0 - 10 tahun
bayi. 2. Menambahkan dataset citra dengan label
V. KESIMPULAN ras kulit putih dan kulit hitam.
A. Kesimpulan
Berdasarkan percobaan yang dilakukan
pada Tugas Akhir ini, metode Vision Transformer REFERENCE
dapat melakukan klasifikasi gender pria dan wanita
dengan memanfaatkan citra wajah close-up [1] Moghaddam, B., & Yang, M. H. (2002).
berdasarkan label dari setiap kelasnya. Selain itu, Learning gender with support faces. IEEE
percobaan Cross-Dataset Evaluation terhadap Transactions on Pattern Analysis and Machine
dataset UTKFace juga berhasil dilakukan pada Intelligence, 24(5), 707–711.
model yang melalui proses training menggunakan https://doi.org/10.1109/34.1000244
dataset AFAD. Hasil skenario terbaik percobaan
proses training dan Cross-Dataset Evaluation adalah [2] Liew, S. S., Khalil-Hani, M., Ahmad Radzi, S.,
sebagai berikut: & Bakhteri, R. (2016). Gender classification: A
1. Berdasarkan beberapa skenario percobaan convolutional neural network approach. Turkish
yang dilakukan pada proses training, skenario Journal of Electrical Engineering and Computer
terbaik yang didapat adalah saat menggunakan Sciences, 24(3), 1248–1264.
ukuran citra 160x160 pixel dan patch 8 yang https://doi.org/10.3906/elk-1311-58
menghasilkan akurasi validation 0,9676 dan
akurasi test 0,9661 [3] Asmara R, Andjani B, Rosiani U, Choirina P.
2. Berdasarkan beberapa skenario percobaan (2018). Klasifikasi jenis kelamin pada citra wajah
yang dilakukan pada proses Cross-Dataset menggunakan metode naive bayes. Jurnal
Evaluation, skenario yang terbaik yang didapat Informatika Polinema, 4(3), 212–217.
adalah saat menggunakan citra berukuran
[4] Mohamed, S., Nour, N., & Viriri, S. (2018).
224x224 pixel dan patch 14 serta menghasilkan
Gender identification from facial images using
akurasi sebesar 0,8174, precision 0,8188, recall
global features. In Proceedings of the 2018
0,8189, dan F1-Score 0,8189.
Conference on Information Communications
3. Tren tertinggi kesalahan klasifikasi pada
Technology and Society, 1–6.
proses Cross-Dataset Evaluation dalam
doi:10.1109/ICTAS.2018.8368761
beberapa skenario Tugas Akhir ini adalah pada
citra dengan label usia pada rentang 0 - 10 tahun [5] Azzopardi, G., Foggia, P., Greco, A., Saggese,
serta citra dengan label ras white atau kulit A., & Vento, M. (2018). Gender recognition from
putih. face images using trainable shape and color features.
In Proceedings of the 2018 24th International
Conference on Pattern Recognition, 1983–1988. [17] Zhu, D., Yao, H., Jiang, B., & Yu, P. (2018).
doi:10.1109/ICPR.2018.8545771 Negative Log Likelihood Ratio Loss for Deep
Neural Network Classification.
[6] Tianyu, L., Fei, L., & Rui, W. (2018). Human doi:10.48550/ARXIV.1804.10690
face gender identification system based on MB-LBP.
In Proceedings of the 2018 Chinese Control And [18] Anwar, T., & Zakir, S. (2020). Deep learning
Decision Conference, 1721–1725. based diagnosis of COVID-19 using chest CT-scan
doi:10.1109/CCDC.2018.8407405 images. In Proceedings of the 2020 IEEE 23rd
International Multitopic Conference, 1–5.
[7] Pham TC., Luong CM., Visani M., Hoang VD. doi:10.1109/INMIC50486.2020.9318212
(2018). Deep CNN and data augmentation for skin
lesion classification. In: Nguyen N., Hoang D.,
Ho P., Ph H., w ńsk B. ds
Information and Database Systems. ACIIDS 2018.
Lecture Notes in Computer Science, vol 10752,
573–582. https://doi.org/10.1007/978-3-319-75420-
8_54
[8] Gonzalez, R. C., & Woods, R. E. (2018). Digital
image processing. New York, NY : Pearson, pp.18.
[9] Ying X. (2019). An Overview of Overfitting and
its Solutions. In Proceedings of Journal of Physics:
Conference Series.
[10] Shorten, C., & Khoshgoftaar, T. M. (2019). A
survey on image data augmentation for deep
learning. Journal of big data, 6(1), 1–48.
https://doi.org/10.1186/s40537-019-0197-0
[11] Vaswani, A., Shazeer, N., Parmar, N.,
Uszkoreit, J., Jones, L., Gomez, A. N., ... &
Polosukhin, I. (2017). Attention is all you need.
Advances in neural information processing systems,
30. Neural information processing systems
foundation.
[12] Zhai, X., Unterthiner, T., Dehghani, M.,
d , ., H o d, G., G y, S., … Ho sby, N.
(2021). An Image Is Worth 16 X 16 Words.
[13] Guo, P., Xue, Z., Rodney Long, L., & Antani,
S. (2020). Cross-dataset evaluation of deep learning
networks for uterine cervix segmentation.
Diagnostics, 10(1), 44.
https://doi.org/10.3390/diagnostics10010044
[14] Singh, J., & Shekhar, S. (2018). Road Damage
Detection And Classification In Smartphone
Captured Images Using Mask R-CNN.
[15] Xia, B., Zhang, H., Li, Q., & Li, T. (2015).
PETs: a stable and accurate predictor of protein-
protein interacting sites based on extremely-
randomized trees. IEEE transactions on
nanobioscience,14(8), 882-893.
doi:10.1109/TNB.2015.2491303
[16] Kanai, S., Fujiwara, Y., Yamanaka, Y., &
Adachi, S. (2018). Sigsoftmax: Reanalysis of the
softmax bottleneck. Advances in Neural Information
Processing Systems, 31.
doi:10.48550/ARXIV.1805.10829

1 SM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 SM

Diunggah oleh

Hak Cipta:

Format Tersedia

ISSN : 2355-9365 e-Proceeding of Engineering : Vol.10, No.

2 April 2023 | Page 1808

Klasifikasi Gender Berdasarkan Citra

Nilai dari [ ] merepresentasikan elemen Untuk melakukan training pada model

2. Accuracy negatif. Accuracy digunakan untuk melihat

4. Recall yang benar. Sebagai contoh nilai recall dapat

5. F1 Score dapat dihasilkan menggunakan Persamaan (16) [18].

Ukuran citra patch size Akurasi validation Akurasi test

224 x 224 8 0,9639 0,9631

224 x 224 14 0,9667 0,9644

224 x 224 28 0,9492 0,9843

224 x 224 32 0,9381 0,9362

160 x 160 10 0,9628 0,9598

160 x 160 16 0,9609 0,9610

160 x 160 20 0,9485 0,9460

160 x 160 32 0,9196 0,9154

B. Hasil pengujian Cross-Dataset Evaluation

Ukuran citra patch size Accuracy Precision Recall F1 Score

224 x 224 8 0,8096 0,8096 0,8085 0,8089

224 x 224 14 0,8174 0,8188 0,8189 0,8189

224 x 224 28 0,7854 0,7921 0,7886 0,7903

224 x 224 32 0,7734 0,7734 0,7740 0,7737

160 x 160 8 0,8061 0,8070 0,8074 0,8072

160 x 160 10 0,7820 0,8050 0,7999 0,8024

160 x 160 16 0,7810 0,7814 0,7819 0,7817

160 x 160 20 0,7915 0,7947 0,7938 0,7942

160 x 160 32 0,6789 0,6970 0,6857 0,6913

14, dan F1-Score tertinggi adalah 0,8189 dengan

adalah 0,6857 saat menggunakan citra 160x160 3. Hasil Kualitatif

Anda mungkin juga menyukai