Metode Transfer Learning Pada Deep Convolutional Neural Network (DCNN) Untuk Pengenalan Ekspresi Wajah

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/364330227
METODE TRANSFER LEARNING PADA DEEP CONVOLUTIONAL NEURAL

NETWORK (DCNN) UNTUK PENGENALAN EKSPRESI WAJAH
Thesis · October 2022
CITATIONS READS
0 509
1 author:
Islam Nur Alam

Binus University
5 PUBLICATIONS 1 CITATION
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Image-based Facial Emotion Recognition Indonesian Mixed Emotion Datasets (IMED) Using Lightweight CNN and Transfer Learning Approach View project
All content following this page was uploaded by Islam Nur Alam on 14 October 2022.
The user has requested enhancement of the downloaded file.

METODE TRANSFER LEARNING PADA DEEP
CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH
RESEARCH
ISLAM NUR ALAM
2301978444
Program Pascasarjana Ilmu Komputer

PROGRAM STUDI TEKNIK INFORMATIKA JENJANG S2
UNIVERSITAS BINA NUSANTARA
JAKARTA
2022
HALAM AN JUDU L

RESEARCH
ISLAM NUR ALAM
2301978444
Tesis Sebagai Salah Satu Syarat Untuk

Memperoleh Gelar Master
TEKNIK INFORMATIKA JENJANG S2
Pada
PROGRAM PASCA SARJANA
i
PERSETUJUAN PEM BIM BING

RESEARCH
Islam Nur Alam
2301978444
Pembimbing:
Iman Herwidiana Kartowisastro, Ph.D.

27– 07 – 2022
ii
PERNYATAAN DEWAN PENGUJI
Pernyataan Dewan Penguji ini diambil oleh mahasiswa setelah sidang tesis dan
melakukan perbaikan sesuai notulen sidang di Layanan Mahasiswa Binus Online
Learning.
Halaman ini memuat Pernyataan Dewan Penguji tentang hasil ujian tesis
mahasiswa dengan nama dan tanda tangan masing-masing anggota dewan
penguji. Lembar pernyataan ini diletakkan setelah lembar persetujuan
pembimbing (iii) tanpa diberi nomor halaman, dan tidak perlu dimasukkan ke
dalam daftar isi.
iii
PERNYATAAN ORI SINA LITAS
HALAMAN PERNYATAAN
STUDENTS STATEMENT
Saya, nama Islam Nur Alam, NIM 2301978444 menyatakan dengan sebenar-
benarnya bahwa tesis saya berjudul “Metode Transfer Learning pada Deep
Convolutional Neural Network (DCNN) untuk Pengenalan Ekspresi Wajah”
adalah merupakan gagasan dan hasil research saya sendiri dengan bimbingan
Dosen Pembimbing.
Saya juga menyatakan dengan sebenarnya bahwa isi tesis ini tidak merupakan
jiplakan dan bukan pula dari karya orang lain, kecuali kutipan dari literatur dan
atau hasil wawancara tertulis yang saya acu dan telah saya sebutkan di Daftar
Acuan dan Daftar Pustaka.
Demikian pernyataan ini saya buat dengan sebenarnya dan saya bersedia
menerima sanksi apabila ternyata pernyataan saya ini tidak benar.
I, Name Islam Nur Alam, Student ID 2301978444 truly acknowledge that my

thesis with title “Transfer Learning Method in Deep Convolutional Neural
Network (DCNN) for Facial Expression Recognition” is my concept and project
result with guidance from supervisor.
I, also truly acknowledge that content of this thesis are not copyed and not from
another people work, except my citation from literature or written interview result
and already write in reference list and bibliography list. That’s my acknowledge
were truly made and if in reality this acknowledge weren’t true, I willing sanction.
Jakarta, 25 September 2022

Yang menyatakan
Islam Nur Alam

2301978444
iv
PERNYATAAN HAK CIPTA
PERNYATAAN
STATEMENT
Dengan ini saya,
Nama : Islam Nur Alam

NIM : 2301978444
Judul Tesis :METODE TRANSFER LEARNING PADA DEEP
CONVOLUTIONAL NEURAL NETWORK (DCNN) UNTUK
PENGENALAN EKSPRESI WAJAH
Memberikan kepada Universitas Bina Nusantara hak non-eksklusif untuk

menyimpan, memperbanyak, dan menyebarluaskan tesis karya saya, secara
keseluruhan atau hanya sebagian atau hanya ringkasannya saja, dalam bentuk
format tercetak dan atau elektronik.
Menyatakan bahwa saya, akan mempertahankan hak exclusive saya, untuk

menggunakan seluruh atau sebagian isi tesis saya, guna pengembangan karya di
masa depan, misalnya bentuk artikel, buku, perangkat lunak, ataupun sistem
informasi.
Hereby grant to my school, Bina Nusantara University, the non-exclusive right to

archive, reproduce, and distribute my thesis, in whole or in part, whether in the
form of printed and electronic formats.
I acknowledge that I retain exclusive rights of my thesis by using all or part of it

in the future work or outputs, such as article, book, software, and information
system.
Jakarta, 25 September 2022
Islam Nur Alam

2301978444
v
KATA PENGANTAR
Puji serta syukur penulis ucapkan kepada Allah SWT karena atas kehendaknya
penulis dapat menyelesaikan tesis yang berjudul “METODE TRANSFER
LEARNING PADA DEEP CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH”.
Pada kesempatan kali ini penulis ingin mengucapkan rasa terima kasih kepada
istri penulis, Chyntia Ayu Maulina, kedua orang tua, dan seluruh kerabat penulis
yang telah mendukung penulis dalam proses penyusunan tesis ini. Tidak lupa juga
penulis ingin mengucapkan terima kasih kepada:
1. Bapak Prof. Dr. Ir. Harjanto Prabowo, M.M. selaku Rektor Universitas Bina
Nusantara.
2. Bapak Dr. Sani Muhamad Isa, S.Si., M.Kom. selaku Dean of Binus Graduate
Program dan Head of Master of Information Technology.
3. Bapak Dr. Fredy Purnomo, S.Kom., M.Kom. selaku Dean of School of

Computer Science.
4. Bapak Dr. Ir. Derwin Suhartono, S.Kom., MTI. selaku Head of Computer
Science Department.
5. Iman Herwidiana Kartowisastro, Ph.D. selaku pembimbing tesis yang telah

meluangkan waktu, tenaga, dan pikirannya dalam membantu penulis
menyelesaikan tesis ini.
6. Segenap dosen yang telah memberikan ilmu dan pengetahuannya selama

penulisan tesis sehingga penulis dapat menyelesaikan tesis ini.
7. Seluruh teman-teman baik yang di dalam program Faculty Development

Program (FDP) angkatan 2021 atau yang di luar program.
8. Semua pihak yang secara langsung atau tidak langsung membantu penulis
dalam penyusunan tesis ini yang tidak dapat disebutkan satu persatu.
vi
ABSTRAK

TRANSFER LEARNING METHOD IN DEEP CONVOLUTIONAL NEURAL
NETWORK (DCNN) FOR FACIAL EXPRESSION RECOGNITION
Islam Nur Alam 2301978444
ABSTRACT
Facial expression recognition systems are very useful in many industrial fields,
including health, product marketing, target advertising, school counseling
systems, and lie detection. This study proposes the use of seven pre-trained Deep
Convolutional Neural Network (CNN) architectures for the manufacture of facial
expression recognition models, namely EfficientNet-B0, VGG-19, VGG-16,
MobileNet-V2, Inception-V3, ResNet-152, DenseNet- 201. In making this facial
expression recognition model, transfer learning method is used with a fine-tune
strategy. In this technique, first, the EfficientNet-B0 architecture on the lower
layers is used as a feature extraction, meaning that the layer is left frozen.
Furthermore, layers close to the output layer are unfreezed several layers to be
retrained with CK+ and JAFFE datasets, each of which consists of seven strategy
classes, this is called fine-tuning. Transfer learning techniques are especially
good for working on small sample datasets such as CK+ and JAFFE. In this
proposed research, the EfficientNet-B0 model has succeeded in obtaining a
testing accuracy of 99.30% on CK+. Furthermore, using the VGG-19 model
architecture to recognize the JAFFE pattern, it achieved an accuracy of 100.0%.
In this case, from the evaluation results of the facial expression recognition model
that has been proposed above using the EfficienNet architecture, it produces
better performance than the previous DCNN architecture so that the system can
be applied in the industrial world.
Keywords: Facial Expression Recognition, Deep Convolutional Neural Network,

Deep Learning, Transfer Learning, EfficientNet
vii
ABSTRAK
Sistem pengenalan ekspresi wajah sangat berguna dalam banyak bidang industri
antara lain dalam bidang kesehatan, pemasaran produk, target periklanan, school
conselling system, dan deteksi kebohongan. Dalam penelitian ini mengajukan
penggunaan tujuh arsitektur pre-trained Deep Convolutional Neural Network
(CNN) untuk pembuatan model pengenalan ekspresi wajah yaitu EfficientNet-B0,
VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152, DenseNet-201.
Dalam pembuatan model pengenalan ekspresi wajah ini digunakan metode
transfer learning dengan strategi fine-tune. Dalam teknik ini pertama arsitektur
EfficientNet-B0 pada layer-layer bagian bawah digunakan sebagai feature
exctraction artinya layer dibiarkan frozen. Selanjutnya layer-layer yang dekat
dengan lapisan output dilakukan unfreeze beberapa layer untuk dilatih ulang
dengan datasets CK+ dan JAFFE yang masing-masing terdiri dari tujuh kelas
strategi inilah yang disebut dengan fine-tuning. Teknik transfer learning sangat
baik digunakan untuk bekerja pada sampel datasets yang sedikit seperti CK+ dan
JAFFE. Dalam penelitian yang telah diajukan ini model EfficientNet-B0 berhasil
memperoleh akurasi testing mencapai 99.30% pada CK+. Selanjutnya
menggunakan arsitektur model VGG-19 untuk mengenali pola JAFFE mencapai
akurasi 100.0%. Dalam hal ini dari hasil evaluasi model pengenalan ekspresi
wajah yang telah diusulkan di atas dengan menggunakan arsitektur EfficienNet
menghasilkan kinerja yang lebih baik dari arsitektur DCNN sebelumnya sehingga
sistem dapat diterapkan di dunia industri.
Kata Kunci: Pengenalan Ekspresi wajah, Deep Convolutional Neural Network,

Deep Learning, Transfer Learning, EfficientNet
viii
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i

PERSETUJUAN PEMBIMBING ......................................................................... ii
PERNYATAAN ORISINALITAS........................................................................ iv
PERNYATAAN HAK CIPTA ............................................................................... v
KATA PENGANTAR ............................................................................................ vi
ABSTRAK ............................................................................................................. vii
DAFTAR ISI ........................................................................................................... ix
DAFTAR GAMBAR ............................................................................................. xii
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ........................................................................................ 1
1.1 Latar Belakang ...............................................................................................1
1.2 Rumusan Masalah ..........................................................................................6
1.3 Tujuan Penelitian ............................................................................................6
1.4 Manfaat Penelitian ..........................................................................................7
1.5 Ruang Lingkup ...............................................................................................7
BAB II LANDASAN TEORI ................................................................................. 9
2.1 Facial Expression Recognition (FER).......................................................9
2.2 Gambaran Arsitektur Convolutional Neural Network (CNN) ................11
2.3 CNN’s Layer ............................................................................................13
2.3.1 Convolutional Layer ............................................................................. 13
2.3.2 Active Function Rectified Linear Unit (ReLU)..................................... 16
2.3.3 Pooling Layer ....................................................................................... 17
2.3.4 Fully Connected Layer.......................................................................... 17
2.3.5 Softmax Classifier ................................................................................. 18
2.4 Hyperparameters .....................................................................................19
2.4.1 Hyperparamater pada Model Jaringan ........................................... 19
2.4.2 Hyperparameter pada Proses Training ........................................... 20
2.4.3 Loss Function .................................................................................. 22
2.5 Arsitektur Convolutional Neural Network (CNN) ..................................23
2.5.1 EfficientNet ..................................................................................... 24
2.5.2 VGG-19 ........................................................................................... 29
ix
2.5.3 VGG-16 ........................................................................................... 29
2.5.4 MobileNet-V2 ................................................................................. 30
2.5.5 ResNet-152 ...................................................................................... 31
2.5.6 Inception-V4 ................................................................................... 32
2.5.7 DenseNet-201.................................................................................. 33
2.6 Tinjauan Pustaka .....................................................................................34
2.6.1 Penelitian Terkait ............................................................................ 34
2.6.2 Analisis Tinjauan Pustaka ............................................................... 48
BAB III METODOLOGI ..................................................................................... 52
3.1 Kerangka Pikir .........................................................................................52
3.2 Skenario Eksperimen Model ...................................................................54
3.2.1 Desain Model .................................................................................. 55
3.2.2 Implementasi Model Pre-Trained Deep CNN ................................ 56
3.3 Benchmark Datasets ................................................................................58
3.4 Pre-processing Data ................................................................................60
3.4.1 Augmentasi Gambar........................................................................ 60
3.4.2 Pembagian CK+ dan JAFFE ........................................................... 61
3.5 Implementasi CNN Model Sequential.....................................................65
3.5.1 Fine-Tuning ..................................................................................... 66
3.5.2 Proses Training Stage dan Testing Stage ........................................ 69
3.5.3 Inisialisasi Hypertparameter ........................................................... 70
3.6 Evaluasi State of the Art Model ...............................................................72
3.6.1 Evaluasi Model Sequential .............................................................. 73
3.6.2 Evaluasi Model Berbasis Transfer Learning .................................. 74
3.6.3 Evaluasi Tahap Testing ................................................................... 76
BAB IV HASIL DAN PEMBAHASAN .............................................................. 79
4.1 Hasil Implementasi .......................................................................................79
4.1.1 Hasil Pengujian Model Standar CNN ................................................... 79
4.1.2 Hasil Pengujian Model Berbasis Transfer Learning ............................ 87
4.2 Evaluasi ......................................................................................................100
4.2.1 Hasil Evaluasi Model Standar CNN ................................................... 100
4.2.2 Hasil Evaluasi Model Berbasis Transfer Learning............................. 107
4.3 Evaluasi Testing .........................................................................................115
4.4 Evaluasi Perbandingan dengan Metode sebelumnya .................................117
x
BAB V SIMPULAN DAN SARAN .................................................................... 120
5.1 Simpulan .....................................................................................................120
5.2 Saran ...........................................................................................................121
DAFTAR PUSTAKA .......................................................................................... 122
xi
DAFTAR GAMBAR
Gambar 2.1 Pipeline Secara Umun Model Pengenalan Ekspresi wajah (Rizwan
Ahmed Khan, 2013). ............................................................................................... 10
Gambar 2.2 Arsitektur Convolutional Neural Network (Islam Nur Alam, 2020). . 12
Gambar 2.3 Urutan Lapisan CNN. .......................................................................... 13
Gambar 2.4 Visualisasi Input dan Filter pada Convolutional Neural Network
(CNN)...................................................................................................................... 15
Gambar 2.5 ReLU Function (Karpathy, 2018)........................................................ 16
Gambar 2.6 Max Pooling Sample (Karpathy, 2018). ............................................. 17
Gambar 2.7 Arsitektur EfficientNet-B0 (Blog AI Google, 2020). ......................... 25
Gambar 2.8 Arsitektur EfficientNet (Feature Extractor). ...................................... 26
Gambar 2.9 Struktur Model VGG-19. .................................................................... 29
Gambar 2.10 Konvolusi standar (a) dibagi menjadi dua lapisan: depthwise
convolution (b) dan pointwise convolution (c) untuk membuat filter terpisah
secara mendalam (depthwise) (Mark Sandler, 2019). ............................................ 31
Gambar 2.11 Blok Residual Network (Kaiming He, 2016). ................................... 32
Gambar 2.12 Arsitektur DenseNet (Chenquan Gan, 2018). ................................... 34
Gambar 3.1 Kerangka Pikir Penelitian.................................................................... 52
Gambar 3.2 Research Model................................................................................... 55
Gambar 3.3 Desain Model ...................................................................................... 56
Gambar 3.4 Diagram Alir Implementasi Arsitektur Deep CNN............................. 57
Gambar 3.5 Spesifikasi Mesin untuk Proses Training. ........................................... 58
Gambar 3.6 Kelas Ekspresi Datasets CK+ ( Patrick Lucey, 2010). ....................... 59
Gambar 3.7 Contoh gambar dari dataset JAFFE. ................................................... 59
Gambar 3.8 Augmentasi gambar............................................................................. 60
Gambar 3.9 Arsitektur Standar CNN. ..................................................................... 66
Gambar 3.10 Proses Fine-Tuning pada lapisan Classifier. ..................................... 67
Gambar 3.11 Skema Proses Training dan Testing. ................................................. 69
Gambar 4.2 Akurasi Training dan Loss CK+ 360×360 Piksel. .............................. 83
Gambar 4.1 Akurasi Training dan Loss CK+ 224×224. ......................................... 83
Gambar 4.3 Akurasi Training dan Loss CK+ 128×128. ......................................... 83
Gambar 4.5 Akurasi Training dan Loss CK+ 64×64. ............................................. 84
xii
Gambar 4. 4 Akurasi Training dan Loss CK+ 48×48. ............................................ 84
Gambar 4.6 Akurasi Training dan Loss JAFFE 360×360. ..................................... 84
Gambar 4.9 Akurasi Training dan Loss JAFFE 64×64. ......................................... 85
Gambar 4.10 Akurasi Training dan Loss JAFFE 48×48. ....................................... 86
Gambar 4. 11 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan EfficientNet-B0. .......................................... 90
Gambar 4.12 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan EfficientNet-B0. ....................................... 91
Validation Loss CK+ menggunakan VGG-19. ...................................................... 92
Validation Loss JAFFE menggunakan VGG-19. ................................................... 92
Validation Loss CK+ menggunakan VGG-16. ...................................................... 93
Validation Loss JAFFE menggunakan VGG-16. ................................................... 93
Validation Loss CK+ menggunakan MobileNet-V2. ............................................. 94
Validation Loss JAFFE menggunakan MobileNet-V2. .......................................... 95
Validation Loss CK+ menggunakan ResNet-152. ................................................. 96
Validation Loss JAFFE menggunakan ResNet-152. .............................................. 96
Validation Loss CK+ menggunakan Inception-V3. ............................................... 97
Validation Loss JAFFE menggunakan Inception-V3. ........................................... 98
Validation Loss CK+ menggunakan DenseNet-201. ............................................. 99
xiii
Validation Loss JAFFE menggunakan DenseNet-201........................................... 99
Gambar 4.25 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
CK+. ...................................................................................................................... 101
JAFFE. .................................................................................................................. 103
Gambar 4.27 Hasil Akurasi Model. ...................................................................... 105
Gambar 4.28 Hasil Akurasi Model. ...................................................................... 105
Gambar 4.29 Hasil Confusion Matrix model pre-trained CK+ ........................... 109
Gambar 4.30 Hasil Confusion Matrix model pre-trained JAFFE. ........................ 111
Gambar 4.31 Hasil Akurasi Model Pre-Trained Deep CNN. ............................... 114
Gambar 4.32 Hasil F-1 Score Model Pre-Trained Deep CNN. ............................ 115
xiv
DAFTAR TABEL
Tabel 2.1 Arsitektur jaringan baseline EfficientNet-B0 ......................................... 28
Tabel 2.2 Struktur Model VGG-16. ........................................................................ 30
Tabel 2.3 Perbandingan Riset Mengenai Model Pengenalan Ekspresi Wajah. ...... 42
Tabel 3.1 Jumlah Gambar Tiap Kelas Dataset CK+(data training). 61
Tabel 3.2 Jumlah Gambar Tiap Kelas Datasets CK+ (validation training). .......... 62
Tabel 3.3 Jumlah Gambar Tiap Kelas Datasets CK+ (data testing). ...................... 62
Tabel 3.4 Jumlah Gambar Tiap Kelas Datasets JAFFE (data training). ............... 63
Tabel 3.5 Jumlah Gambar Tiap Kelas Datasets JAFFE (data validation). ............ 64
Tabel 3.6 Jumlah Gambar Tiap Kelas Datasets JAFFE (data testing). ................. 64
Tabel 3.7 Inisialisasi Hyperparameter Tunning...................................................... 71
Tabel 3.8 Hasil Testing akurasi model CNN Standar. ............................................ 73
Tabel 3.9 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode
Training yang Berbeda dalam Transfer Learning. ................................................. 74
Tabel 3.10 Perbandingan Akurasi Testing CK+ dan JAFFE dengan Model Pre-
trained yang Berbeda. ............................................................................................. 75
Tabel 4.1 Perbandingan Akurasi Testing Model Standar CNN Menggunakan
CK+ dan JAFFE. ..................................................................................................... 82
Training yang Berbeda dalam Transfer Learning. ................................................. 88
Tabel 4.3 Perbandingan akurasi testing dengan tujuh model Deep Convolutional
Neural Network pada CK+ dan JAFFE. ................................................................. 89
Tabel 4.4 Hasil Classification Report Standar CNN. ........................................... 104
Tabel 4.5 Hasil Classification Report Pre-Trained Model. .................................. 112
Tabel 4.6 Menampilkan klasifikasi F1-Score dari setiap kelas ekspresi dalam set
data CK+. .............................................................................................................. 116
Tabel 4.7 Menampilkan gambar yang salah diklasifikasikan dari set data CK+. . 116
Tabel 4.8 Perbandingan akurasi metode yang diusulkan dengan Penelitian
sebelumnya pada datasets CK+ dan JAFFE. ........................................................ 118
xv
BAB I PENDAHULUAN
1.1 Latar Belakang
Ekspresi wajah menunjukkan keadaan emosi seseorang yang mana melalui
ekspresi ini, Dapat menjadi penunjang keputusan dalam suatu tindakan terhadap
seseorang (Izard et al., 2011). Ekspresi wajah merupakan suatu keadaan alami
yang dirasakan manusia karena sebagai akibat dari suatu tindakan yang
dialaminya. Lebih jauh lagi ekspresi seseorang yang bersifat universal karena
perbedaan wajah dari ras suku dan warna kulit. Pada akhir abad ke-20, Ekman dan
Friesen mengkonfirmasi teori Darwin dan mengklasifikasikan enam ekspresi
wajah secara umum yaitu: bahagia, takut, terkejut, jijik, sedih, dan marah (Sayette
et al., 2001).
Pengenalan ekspresi wajah atau Facial Expression Recognition (FER)
dalam bidang Computer Vision Merupakan topik yang terus berlanjut dalam
penelitiannya. Para peneliti tertarik untuk meneliti dan membuat model FER atau
Pengenalan ekspresi wajah dapat meningkatkan kebutuhan industri dan kesehatan
seperti human-machine interaction, behavioural science, dan clinical practice.
Kemajuan terbaru saat ini dengan peningkatan perangkat keras berupa GPU
Sehingga untuk membuat model ekspresi wajah dapat teratasi. Tapi fokus dalam
penelitian ini adalah bagaimana mengembangkan sebuah model untuk model
pengenalan ekspresi wajah Efisien dalam komputasi dengan CNN dan
menerapkan tujuh pre-trained. Model pengenalan ekspresi wajah ini berguna
dalam healthcare systems, social marketing, targeted advertisements, music
industry, school counselling systems, dan deteksi kebohongan (Nadhir et al.,
2021).
1
2
Oleh karena itu beberapa penelitian sebelumnya menggunakan beberapa
algoritma machine learning seperti Support Vector Machine (SVM), logistic
regression, Artificial Neural Network (ANN). Tetapi algoritma yang telah
disebutkan di atas memiliki beberapa kelemahan. Diantaranya adalah memiliki
akurasi yang rendah ketika memproses datasets ekspresi wajah yang besar dan
banyak variasi data. Hingga sampai saat ini para peneliti berlomba-lomba untuk
membuat model pengenalan ekspresi yang menghasilkan akurasi tinggi dan
efisien dalam komputasi (Nadhir et al., 2021).
Metode machine learning konvensional memerlukan teknik khusus untuk
mempelajari fitur dari data berupa gambar atau data yang tidak terstruktur yang
mempunyai dimensi tinggi. Di sisi lain keunggulan metode dapat mempelajari
data gambar secara otomatis dan mendalam yaitu dengan menerapkan
convolutional layer sebagai feature extraction. Zhuang Liu Mengusulkan
arsitektur yang disebut DensNet Berdasarkan dengan algoritma Deep
Convolutional Neural Network. Arsitektur ini dapat mencapai akurasi pengenalan
emosi dasar. DenseNet juga telah teruji dalam ImageNet mencapai akurasi 77%.
Zuheng juga mengusulkan arsitektur FaceLiveNet berbasis Deep CNN, yang
mana FaceLiveNet mendapat akurasi 68.60% pada Dataset ekspresi wajah yang
besar bernama FER2013.
Kapan harus menggunakan machine learning atau deep learning adalah
pertanyaan yang sulit dijawab, karena tergantung dari masalah yang akan
diselesaikan. Masalah tertentu cocok diatasi dengan teknik deep learning tapi
tidak cocok untuk machine learning. Dalam machine learning proses ekstraksi
fitur dilakukan secara manual artinya pengembang harus melakukan ekstraksi

3
fitur menggunakan algoritma yang relatif lama dan hanya baik untuk datasets
yang relatif sedikit. Metode machine learning tidak cocok untuk mempelajari fitur
gambar ekspresi wajah yang bersimensi tinggi karena banyaknya fitur yang ada
dalam gambar juga membutuhkan dataset yang besar di mana banyak varian di
dalamnya. Tetapi algoritma deep learning CNN Lebih mahal dalam hal komputasi
daripada penerapan machine learning. Untuk melatih deep CNN tergantung pada
ukuran dataset yang digunakan dan kebutuhan komputasi yang besar. Dalam hal
ini masalah komputasi dapat terselesaikan dengan adanya penggunaan Graphics
Processing Unit (GPU)(Krizhevsky et al., 2012).
Algoritma deep CNN Merupakan jenis algoritma yang sangat baik untuk
memproses data yang tidak terstruktur khususnya gambar ekspresi wajah manusia.
Namun dalam hal ini membuat model pengenalan ekspresi wajah menggunakan
CNN hanya beberapa lapisan terbukti bisa, Tapi jika membuat model dengan
menambahkan lapisan yang lebih dalam akan lebih baik dalam hal akurasi secara
teoritis(Moravčík & Basterrech, 2021). Banyak tantangan yang dihadapi dalam
membuat model pengenalan ekspresi wajah. Pengenalan ekspresi wajah
membutuhkan gambar yang beresolusi cukup tinggi. Perbedaan wajah setiap
manusia dan ekspresi seseorang yang begitu sulit dibedakan sehingga mempe
tugas klasifikasi(Khan et al., 2020). Dalam hal ini, melatih algoritma CNN yang
sangat dalam dengan menambahkan banyak convolution layer berlebih akan
menyebabkan model tidak dapat melakukan generalisasi dengan baik. Karena
dengan menambahkan jumlah lapisan pada lapisan feature extraction secara terus
menerus tidak dapat meningkatkan akurasi pada tingkat tertentu karena masalah
vanishing gradient. Vanishing gradient merupakan keadaan di mana jika jumlah

4
layer terlalu dalam maka maka akan terjadi permasalahan luruhnya/hilangnya
efektivitas gradien pada convolution layer, dalam hal ini gradien menyusut seiring
proses backprobagation. Gradien merupakan nilai yang digunakan untuk
memperbaharui bobot pada jaringan Convolutional Neural Network. Gradien
menghilang sebelum model mencapai titik konvergen sehingga proses
memperbaharui bobot atau backpropagation tidak mempengaruhi nilai loss.
Model deep CNN pra-terlatih yang banyak digunakan adalah VGG-16 (Simonyan
& Zisserman, 2015), Resnet-50, Resnet-152 (He et al., 2016), Inception-v3
(Szegedy et al., 2015) dan DenseNet-161 (Huang et al., 2018). Tetapi melatih
model arsitektur deep CNN begitu dalam juga membutuhkan banyak daya dan
komputasi yang tinggi.
Oleh karena itu untuk mengatasi masalah beberapa arsitektur CNN yang
terkenal sebelumnya, tim google brain khususnya Tan dan Le membuat arsitektur
berbasis algoritma deep CNN yang disebut EfficientNet. Arsitektur ini telah
dilakukan penskalaan tidak hanya kedalaman, tetapi juga lebar dan resolusi
jaringan. Sehingga model akan seimbang dari segi dimensi yang relatif terhadap
dimensi yang lain. Dengan cara ini EfficientNet hanya memerlukan kebutuhan
komputasi yang tidak sebanyak arsitektur deep CNN sebelumnya.
Oleh karena itu, sebuah penelitian yang dilakukan oleh (Tan & Le, 2019)
Dalam studinya, mereka mempelajari penskalaan model secara automatic dan
mengidentifikasi bahwa menyeimbangkan kedalaman, lebar, dan resolusi jaringan
dengan hati-hati dapat menghasilkan kinerja yang lebih baik dan efficient.
Berdasarkan pengamatan yang dilakukan (Tan & Le, 2019), mereka mengusulkan
metode penskalaan baru yang secara seragam menskalakan semua dimensi

5
kedalaman/lebar/resolusi menggunakan koefisien gabungan yang sederhana
namun sangat efektif kemudian mendemonstrasikan keefektifan metode ini dalam
meningkatkan MobileNets dan ResNet.
Dalam tesis ini arah penelitian yang dilakukan adalah membuat arsitektur
standar CNN kemudian dilanjutkan dengan menggunakan tujuh model arsitektur
pre-trained Deep Convolutional Neural Network untuk pembuatan model
pengenalan ekspresi wajah khususnya menggunakan datasets CK+ dan JAFFE.
Selanjutnya adalah yang mana setiap tujuh model Deep CNN pada lapisan bawah
yang cenderung tetap padat digunakan sebagai feature ectraction. Kemudian
melakukan fine-tune yaitu mencairkan lapisan-lapisan yang dekat dengan output
dengan unfreeze beberapa layer tertentu dengan melatihnya ulang pada datasets
CK+ dan JAFFE. Proses ini disebut transfer learning yang mana teknik transfer
learning sangat baik untuk bekerja pada datasets yang relatif kecil dalam
peneltitian ini yaitu CK+ dan JAFFE. Peneliti akan melakukan eksperimen
dengan pendekatan transfer learning pada tujuh arsitektur model pre-trained
Deep Convolutional Neural Network diantaranya adalah EfficientNet-B0, VGG-
19, VGG-16, ResNet-152, MobileNet-V2, Inception-V3, DenseNet-201. Langkah
selanjutnya adalah peneliti membandingkan akurasi testing dari kedua datsets
CK+ dan JAFFE untuk setiap model mulai dari arsitektur standar CNN dan Deep
CNN.
Berdasarkan latar belakang yang dijabarkan di atas kontribusi penelitian
ini dapat dirangkum sebagai berikut:
I. Mengembangkan model pengenalan ekspresi wajah menggunakan
arsitektur standar Convolutional Neural Network (CNN) untuk

6
mengenali pola datasets CK+ dan JAFFE.
II. Pengaplikasian tujuh model pre-trained model EfficientNet-B0,
VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152,
DenseNet-201 untuk mengenali pola CK+ dan JAFFE dengan
menerapkan strategi fine-tuning dengan pendekatan transfer
learning.
III. Membandingkan kinerja pre-trained Deep Convolutional Neural
Network (CNN) untuk pembuatan model pengenalan ekspresi
wajah menggunakan datasets CK+ dan JAFFE.
1.2 Rumusan Masalah
Berdasarkan latar belakang masalah yang telah dipaparkan sebelumnya,
maka masalah penelitian dapat dirumuskan sebagai berikut:
- Bagaimana membangun model pengenalan ekspresi wajah menggunakan
algoritma Convolutional Neural Network?
- Bagaimana membangun model pengenalan ekspresi wajah menggunakan
teknik transfer learning dengan menerepkan model pre-trained Deep
Convolutional Neural Network?
- Seberapa tinggi perbandingan akurasi model pengenalan ekspresi wajah
menggunakan teknik transfer learning dan Convolutional Neural Network
dalam pengujiannya menggunakan datasets CK+ dan JAFFE?
1.3 Tujuan Penelitian
Berdasarkan perumusan masalah penelitian yang telah dijelaskan di atas,
tujuan penelitian dan manfaat penelitian disusun sebagai berikut:

7
- Membangun model pengenalan ekspresi wajah menggunakan algoritma
Convolutional Neural Network (CNN)
- Membangun mekanisme dan melakukan evaluasi dalam penggunaannya
untuk membangun model pengenalan ekspresi wajah berbasis transfer
learning dengan menerapkan pre-trained Deep Convolutional Neural
Network (CNN).
- Menemukan akurasi terbaik dalam penggunaan model arsitektur pre-
trained dan algoritma Convolutional Neural Network dalam
penggunaannya untuk pengenalan ekspresi wajah khususnya
menggunakan dua datasets CK+ dan JAFFE.
1.4 Manfaat Penelitian
Manfaat yang dapat di harapkan dari penelitian pengenalan ekspresi wajah
menggunakan algoritma Convolutional Neural Network berbasis deep learning ini
adalah sebagai berikut:
- Model pengenalan ekspresi wajah ini dapat disematkan ke dalam model
robot untuk mendeteksi ekspresi wajah manusia, sehingga dapat
menentukan tindakan dari masalah, berdasarkan ekspresi seseorang.
- Model Pengenalan ekspresi wajah ini dapat dikembangkan ke dalam
CCTV untuk mendeteksi ekspresi wajah manusia.
1.5 Ruang Lingkup
Ruang lingkup yang diteliti dalam penelitian ini adalah sebagai berikut:
- Data yang digunakan menggunakan dataset publik CK+(Lucey et al.,
2010) dan The Japanese Female Facial Expression JAFFE(Lyons et al.,

8
2020). Dua datasets ini terdiri dari gambar yang dikategorikan berdasarkan
emosi yang ditunjukkan pada tujuh ekspresi wajah yaitu senang, netral,
sedih, marah, terkejut, jijik dan takut.
- Dalam penelitian ini menggunakan standar arsitektur Convolutional
Neural Network dan metode transfer learning dari tujuh arsitektur pre-
trained Deep Convolutional Neural Network yaitu EfficientNet-B0, VGG-
19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152, DenseNet201
untuk pembuatan model pengenalan ekspresi wajah. Selanjutnya peneliti
membandingkan hasil akurasi antara CK+ dan JAFFE.

BAB II LANDASAN TEORI
2.1 Facial Expression Recognition (FER)
Facial Expression Recognition (FER) berbasis gambar merupakan
masalah penting terutama untuk menganalisis emosi atau perasaan manusia dalam
kondisi tertentu, seperti saat menonton adegan film atau bermain game komputer.
Pengenalan ekspresi wajah berbasis citra merupakan salah satu masalah penting
dan dapat diterapkan untuk permasalahan dibanyak aplikasi, termasuk analisis
adegan film, human computer interaction, dan pemahaman fisiologi manusia.
Tuntutan penyelesaian pengenalan ekspresi wajah berbasis citra membuat peneliti
mengajukan beberapa dataset pengenalan ekspresi wajah manusia berbasis citra
yang berbeda-beda antara lain FER2013, FER, CK (Cohn-Kanade) dan CK+48
(Wikanningrum et al., 2019).
Facial Expression Recognition (FER) adalah bidang computer vision yang
menggunakan berbagai teknik untuk mengidentifikasi emosi dari ekspresi wajah
manusia. Para peneliti tertarik pada FER, karena memahami emosi seseorang
dapat meningkatkan human-machine interaction, behavioural science, dan
clinical practice. Kemajuan terbaru dalam perangkat keras komputer dan teknik
klasifikasi gambar memungkinkan peneliti untuk mengembangkan model
pengenalan ekspresi wajah yang lebih efisien. Model pengenalan ekspresi wajah
ini berguna dalam model healthcare systems, social marketing, targeted
advertisements, music industry, school counselling systems dan deteksi
kebohongan (Nadhir et al., 2021).
9
10
Facial Expression Recognition (FER) atau Ekspresi wajah merupakan cara
yang efektif untuk mengenali emosi seseorang. Ekspresi wajah sangat penting
untuk komunikasi sehari-hari, karena mereka menyampaikan emosi dan perasaan
non-verbal. Dengan hanya 43 otot wajah yang berbeda, manusia dapat membuat
6.000 hingga 10.000 ekspresi. Pada tahun 1872, Charles Darwin berhipotesis
bahwa manusia telah berevolusi ekspresi wajah dari nenek moyang hewan. Lebih
jauh, ekspresi tertentu bersifat universal lintas budaya, meskipun ada perbedaan
ras, bahasa dan perbedaan warna kulit. Pada akhir abad ke-20, Ekman dan Friesen
mengkonfirmasi teori Darwin dan mengklasifikasikan enam ekspresi wajah
universal: senang, takut, terkejut, jijik, sedih, dan marah (Nadhir et al., 2021).
Pada Gambar 2.1 dapat dilihat bahwa strategi pipeline secara umum untuk
pembuatan model pengenalan ekspresi wajah menggunakan algoritma machine
learning khususnyya Support Vector Machine (SVM). Di mana komputer akan
melakukan preprocessing untuk mendeteksi wajah, kemudian mendeteksi ekspresi
wajah dari gambar. Proses feature extraction dilakukan untuk mencari pola dalam
gambar. Setelah itu, mesin akan melakukan klasifikasi menggunakan SVM,
Artificial Neural Network (ANN).
Gambar 2.1 Pipeline Secara Umun Model Pengenalan Ekspresi wajah (Rizwan
Ahmed Khan, 2013).
11
2.2 Gambaran Arsitektur Convolutional Neural Network
(CNN)
Analogi dari arsitektur Convolutional Neural Network (CNN) adalah
seperti pola aktifitas neuron pada otak manusia yang saling terhubung antar
neuron cara kerja ini diilhami oleh visual cortex. Dimana setiap neuron akan
merespon setiap rangsangan dengan batas bidang visual yang dikenali sebagai
bidang reseptif. Dari kumpulan bidang tersebut berupa tupang tindih berguna
menutupi seluruh area visual.
Dalam model arsitektur CNN proses feature learning sangat bergantung
pada kedalaman suatu gambar. Semakin dalam suatu gambar maka semakin
banyak mesin melakukan ekstraksi yang didapatkan sehingga informasi berupa
pola yang di dapat akan semakin jelas terbentuk. Nilai dari pola berbentuk value
inilah yang nantinya akan dikonversi menjadi vektor dan kemudian masuk pada
tahap klasifikasi (Li & Zhang, 2018). Pada proses classifier ini model ConvNets
bekerja dalam melakukan tugas klasifikasi objek berdasarkan kelasnya.
Pada dasarnya berbagai arsitektur model CNN mengikuti arsitektur yang
sama, pada Gambar 2.1, diilustrasikan menggunakan gambar sebagai input
kemudian pada mesin model CNN melakukan operasi convolution, operasi
pooling, diikuti oleh sejumlah layer yang terhubung sepenuhnya (fully connected
layer).
12
Gambar 2.2 Arsitektur Convolutional Neural Network (Islam Nur Alam, 2020).
Berdasarkan Gambar 2.2, arsitektur dari algoritma CNN dibagi menjadi 2
tahapan proses. Pada proses feature learning, secara umum ada 3 lapisan proses
ekstraksi fitur. Lapisan-lapisan ini sering disebut dengan covolution layer,
activation dan pooling layer. Lapisan-lapisan ini akan melakukan operasi
matematika untuk membentuk kedalaman data agar mendapatkan pola secara
spesifik. Ketiga layer tersebut memiliki urutan proses yang tidak harus selalu
sama, dalam artian prosesnya bisa dimodifikasi sesuai dengan kebutuhan. Tapi
umumnya proses feature learning ini diawali dengan melakukan proses konvolusi
antara matriks input dengan kernel ukuran tertentu kemudian dilanjutkan oleh
filter untuk mendapatkan informasi dari gambar sehingga dihasilkan feature map
proses akan berlanjut sesuai kedalaman layer model CNN yang ditentukan.
Dengan menggunakan gambar grayscale sebagai nilai input, CNN
membatasi arsitektur dengan cara yang lebih sederhana untuk diterapkan. Secara
lebih khusus, layer-layer model CNN mempunyai neuron yang saling yang mana
tersusun dalam ruang tiga dimensi yaitu: Lebar (W), Tinggi (H), Kedalaman
(D). Kedalaman arsitektur CNN pada tiga dimensi volume aktivasi, bukan
13
kedalaman dari jaringan neural penuh, yang dapat merujuk pada jumlah total layer
dalam jaringan.
Algoritma CNN memanfaatkan proses konvolusi dengan mengalikan
sebuah filter atau kernel konvolusi (filter) berukuran tertentu sebuah inputan
berupa gambar. Komputer mendapatkan informasi representatif baru dari hasil
perkalian gambar wajah berupa citra abu-abu dengan channel satu dengan filter
yang digunakan. Sesuai dengan arsitektur model pada Gambar 2.3.
Gambar 2.3 Urutan Lapisan CNN.
2.3 CNN’s Layer
Layer-layer yang sangat penting dalam membangun artsitektur
Convolutional Neural Network (CNN) sebagai berikut: Convolutional Layers
(CONV), ReLU, Pooling Layer (POOL) dan Fully Connected Layer (FC).
2.3.1 Convolutional Layer
Convolutional layer merupakan Lapisan terpenting dalam lapisan ini.
Seperti namanya, lapisan konvolusional ini terdiri dari blok bangunan dasar yang
disebut konvolusi. Terapkan konvolusi ke sebagian kecil gambar, buat sampel
nilai piksel di area itu, lalu ubah menjadi satu piksel. Menerapkan ke setiap area
piksel pada gambar untuk menghasilkan gambar baru yang disebut feature maps.
14
Idenya adalah bahwa piksel dalam gambar baru menyertakan informasi tentang
piksel sekitarnya untuk mencerminkan seberapa baik fitur tersebut diekspresikan
di area tersebut. Konvolusi memiliki dua sifat penting yaitu size dan step size.
Konvolusi berikut diterapkan pada gambar 3×3 dan langkah 1, yang memiliki
ukuran 3×3 karena berjalan pada kisi 3×3 piksel. Ukuran langkahnya adalah 1
karena jarak antar daerah yang diterapkan konvolusi adalah 1. Dengan kata lain,
pra-konvolusinya adalah 1 per suku. Ukuran dan ukuran langkah konvolusi
menentukan ukuran gambar keluaran. Misalnya, lakukan konvolusi 3×3 dengan
langkah 1 untuk mengubah gambar 5×5 menjadi gambar 3×3. Pertanyaan yang
muncul adalah bagaimana konvolusi mengubah grid piksel menjadi satu piksel
(Indolia et al., 2018). pada dasarnya melewati grid piksel melalui perceptron,
dengan kata lain, mendapatkan jumlah piksel input yang dibobot. Bagian kanan
bawah piksel menunjukkan bobot yang diterapkan ke piksel. Pada konvolusi
berikut, tidak ada bias (atau offset), tetapi seperti halnya perceptron, konvolusi
biasanya juga memiliki output dari konvolusi yang diterapkan ke input tunggal
akan tetap sebagai piksel tunggal, dan output dari konvolusi yang diterapkan ke
seluruh gambar 3 dimensi akan menjadi gambar 2 dimensi.
Kita mungkin berpikir bahwa ini berarti gambar kehilangan kedalaman,
padahal sebenarnya tidak. Secara teoritis ketika gambar melewati lapisan
konvolusional, kedalaman biasanya meningkat. setiap lapisan konvolusi tidak
diterapkan konvolusi ke gambar. namun akan menghasilkan beberapa keluaran 2D
untuk setiap konvolusi, yang ditumpuk bersama untuk menghasilkan gambar 3D
baru. Oleh karena itu, kedalaman keluaran dari lapisan konvolusional adalah
jumlah konvolusi yang diterapkan (Indolia et al., 2018).

15
Gambar 2.4 Visualisasi Input dan Filter pada Convolutional Neural Network
(CNN).
Dari visualisasi Gambar 2.4 digambarkan di sebelah kiri merupakan input
dari convolutional layer dengan ukuran 7x7. Sedangkan di sebelah kanan
merupakan convolutional filter yang juga disebut sebagai kernel. Ini merupakan
convolutional 3x3 berdasarkan dari filternya. Setelah melakukan perkalian
convolutional layer dengan filter maka akan mendapatkan matriks yang dikenal
sebagai feature map. Operasi convolution dilakukan dengan menggeser filter ini
dalam input.
Berikut ini adalah rumus dari perhitungan convolution untuk gambar 2D
dapat dipetakan ke jendela convolution yang digeser secara berkelanjutan untuk
memperoleh nilai convolution dari input sebuah gambar.
ℎ = 𝐷𝑓(𝑤 ∗ 𝑥) (2.1)
16
Di mana * mewakili operasi convolution, Wi mewakili filter convolution
pada layer, dan f mewakili fungsi aktivasi. Wi D [Wi1; Wi2; WiK], K adalah
nomornya kernel convolution dari layer. Setiap kernel WK i adalah M x M x N
matriks berat dengan M menjadi ukuran jendela dan N menjadi jumlah saluran
input. Pada persamaan (2.1) merupakan penjelasan proses dari formula
convolutional layer.
2.3.2 Active Function Rectified Linear Unit (ReLU)
Setelah model melakukan proses konvolusi dalam convolution layer maka
layer berikutnya adalah ReLU layer. Pada Gambar 2.5 ktivasi ReLU (Rectified
Linear Unit) adalah lapisan aktivasi yang saat ini banyak digunakan untuk model
CNN yang mengaplikasikan fungsi f(x) = max (0, x) yang berarti fungsi ini
melakukan thresholding dengan nilai nol terhadap nilai piksel pada input citra.
Aktivasi ini membuat seluruh nilai piksel yang bernilai kurang dari nol pada suatu
citra akan dijadikan 0 (Indolia et al., 2018). Layer ini meningkatkan sifat non-
linear dari model dan jaringan keseluruhan tanpa mempengaruhi bidang reseptif
dari layer convolutional. Hasil operasi convolution dimasukkan ke dalam fungsi
aktivasi ReLU. Jadi nilai-nilai di feature map akhir sebenarnya bukan jumlah,
tetapi merupakan penerapan fungsi ReLU (Karphaty, n.d.).
Gambar 2.5 ReLU Function (Karpathy, 2018).

17
2.3.3 Pooling Layer
Pooling Layer merupakan lapisan yang menggunakan fungsi dengan
Feature Map sebagai nilai input kemudian mengolahnya dengan berbagai macam
operasi statistik berdasarkan nilai piksel terdekat. Pada model CNN, lapisan
Pooling biasanya disisipkan secara teratur setelah beberapa lapisan konvolusi.
Lapisan Pooling yang dimasukkan di antara lapisan konvolusi secara berturut-
turut dalam arsitektur model CNN dapat secara progresif mengurangi ukuran
volume output pada Feature Map, sehingga mengurangi jumlah parameter dan
perhitungan di jaringan, dan untuk mengurangi Overfitting. Lapisan Pooling
bekerja di setiap tumpukan Feature Map dan mengurangi ukurannya. Bentuk
lapisan Pooling yang paling umum adalah dengan menggunakan filter atau kernel
berukuran 2x2 yang diaplikasikan dengan langkah sebanyak 2 dan kemudian
beroperasi pada setiap irisan dari input. Bentuk seperti ini akan mengurangi
Feature Map hingga 75% dari ukuran aslinya (Indolia et al., 2018). Contoh
operasi Max Pooling ditunjukkan dalam Gambar 2.6.
Gambar 2.6 Max Pooling Sample (Karpathy, 2018).
2.3.4 Fully Connected Layer
Dalam model CNN setelah proses convolution layer dan ReLE kemudian
dilanjutkan downsampling denga max pooling dalam lapisan pooling. Fully

18
Connected layer dengan menggunakan vektor fitur dapat mengklasifikasikan
gambar input ke dalam beberapa kelas berdasarkan pada dataset pelatihan yang
berlabel, fully connected layer berupa vektor angka 1D. Dengan meratakan output
dari layer kumpulan terakhir ke vektor dan itu menjadi input ke fully connected
layer. Sehingga pada saat meratakan merubah isi angka 3D menjadi sebuah vektor
1D.
2.3.5 Softmax Classifier
Softmax Classifier atau biasa disebut dengan fungsi aktivasi softmax
merupakan bentuk lain dari algoritma logistic regression yang dapat digunakan
untuk klasifikasi lebih dari dua kelas. Standar klasifikasi yang umum dilakukan
oleh algoritma Logistic Regression adalah tugas untuk klasifikasi kelas biner.
Pada Softmax bentuk persamaan (2.2) yang muncul adalah sebagai berikut ini.
𝑒 (2.2)
𝑓𝑖(𝑍) =
∑𝑘𝑒
Notasi 𝑓𝑖 menunjukkan hasil fungsi untuk setiap elemen ke-j pada vektor
keluaran kelas. Argumen 𝑍 adalah hipotesis yang diberikan oleh model pelatihan
agar dapat diklasifikasi oleh fungsi softmax. Softmax juga memberikan hasil yang
lebih intuitif dan juga memiliki interpretasi probabilistik yang lebih baik
dibanding algoritma klasifikasi lainnya. Softmax memungkinkan menghitung
probabilitas untuk semua label. Dari label yang ada akan diambil sebuah vektor
nilai bernilai riil dan merubah menjadi vektor dengan nilai antara nol dan satu
yang bila semua dijumlah akan bernilai satu.

19
2.4 Hyperparameters
Hyperparameters merupakan veriabel yang sangat berpengarauh dalam
proses pelatihan model CNN. Variabel hyperparameters dapat ditentukan
sebelum proses pelatihan. Hyperparameters berdasarkan keterhubungannya dapat
ditentukan menjadi hyperparameter yang menentukan model struktur jaringan dan
hyperparameters yang sangat berpengaruh terhadap jaringan pelatihan.
2.4.1 Hyperparamater pada Model Jaringan
Berikut ini adalah hyperparameter yang sangat berpengaruh terhadap
model jaringan sebagai berikut:
1. Jumlah layer tersembunyi dan jumlah informasi dari unit gambar.
Hidden layer adalah layer dalam jaringan neural network yang
tersembunyi di antara input dan output. Hidden layer dapat di analogikan
seperti jika terus menambahkan hidden layer sehingga mencapai nilai
kesalahan yang tidak meningkat saat fase validasi atau testing. Dengan
menambahkan beberapa hidden layer dan meningkatkan unit citra dapat
meningkatkan akurasi model dengan teknik regularisasi. Jika jumlah unit
yang sangat sedikit dapat menyebabkan model mengalami underfitting
yaitu di mana model pelatihan data yang dibuat tidak mewakilkan
keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan
performa yang buruk dalam pelatihan data.
2. Dropout
Dropout adalah teknik regularisasi untuk meningkatkan akurasi validasi
dengan menghindari overfitting, di mana sebuah model memiliki nilai

20
akurasi yang tinggi dan loss yang rendah selama pelatihan tetapi berfungsi
sangat buruk ketika model memprediksi data baru. Sehingga dengan
dropout model dapat meningkatkan kekuatan generalisasi.
- Nilai dropout biasa digunakan antara rentang 20%-50% dari neuron,
dengan menetapkan awal dropout 20% akan menghasilkan titik awal yang
baik. Dengan probabilitas jika dropout terlalu rendah memiliki dampak
terhadap model minimal dan memberikan nilai yang terlalu tinggi
menyebabkan model under-learning oleh jaringan.
- Memperbesar jaringan. Performa dropout akan lebih baik jika diterapkan
pada jaringan yang lebih besar, ini dikarenakan memberikan model lebih
banyak kesempatan dalam belajar representasi secara independen.
3. Network Weight Initialization
Menggunakan inisialisasi bobot jaringan idealnya menggunakan berat
yang berbeda sesuai dengan activation fungtion yang digunakan pada
setiap layer dalam model CNN.
2.4.2 Hyperparameter pada Proses Training
Berikut ini adalah hyperparameter yang sangat berpengaruh dalam hal
proses training model.
1. Learning Rate
Merupakan salah satu parameter proses training berjalan dalam sebuah
model. Bekerja dengan mengoreksi nilai koreksi bobot ketika proses
training berjalan. Rentang dari parameter learning rate adalah 0
sampai 1. Ketika nilai learning rate kecil maka proses training
berjalan lambat tapi memperbaharui informasi dengan cara yang halus.

21
Semakin tinggi nilai learning rate maka proses training berjalan cepat
begitu juga dengan sebaliknya.
2. Momentum
Momentum bertujuan untuk mempercepat proses learning rate
membantu untuk mengetahui arah langkah selanjutnya dengan
mendapatkan pengetahuan dari langkah-langkah sebelumnya. Metode
ini ditambahkan pada gradient descent bertujuan mencegah optimasi
berhenti di local minimum.
3. Epoch
Merupakan hyperparameter ketika model dalam proses training di
mana menentukan berapa kali model algortima pembelajaran akan
bekerja mengolah seluruh dataset training. Satu epoch berarti bahwa
setiap sampel dalam dataset training memiliki kesempatan untuk
memperbarui parameter model internalnya.
4. Batch Size
Termasuk dalam dalam hyperparameter training batchsize merupakan
sub sampel yang diberikan ke sebuah jaringan setelah pembaharuan
terjadi. Secara default untuk ukuran dalam proses fitting 32. Ukuran
batch yang dapat digunakan 64, 128, 256, dan seterusnya.
Secara umum ada empat hyperameters yang umum digunakan dalam
bekerja ketika melakukan proses training sedang berlangsung yaitu
sebagai berikut:
1. Ukuran filter/kernel: umumnya dibanyak contoh filter menggunakan
ukuran 3x3, 5x5, dan 7x7 juga bisa semuanya tergantung dengan aplikasi
22
atau jaringan yang digunakan. Filter yang dimaksud adalah filter pada 3D
dan memiliki dimensi kedalaman (depth) juga, tetapi karena kedalaman
filter pada layer tertentu sama dengan kedalaman inputnya, sehingga
kedalaman terkadang diabaikan.
2. Jumlah filter/kernel: ini merupakan parameter yang mempunyai banyak
variabel, umumnya banyak digunakan dalam rentang 32 dan 1024.
Menggunakan lebih banyak filter akan menghasilkan model lebih kuat,
tetapi meningkatkan risiko model mengalami overfitting karena
peningkatan jumlah parameter. Umumnya menentukan kernel dimulai
filter kecil pada layer awal, dan semakin bertambah jumlahnya ketika
masuk lebih dalam ke jaringan.
3. Stride: merupakan parameter yang menentukan berapa jumlah pergeseran
filter/kernel yang akan digunakan. Jika stride bernilai 1, maka filter akan
bergeser sebanyak 1 piksel secara horizontal ke kanan hingga selesai,
kemudian baru dilanjutkan bergeser lagi secara vertikal ke bawah.
4. Padding: merupakan parameter yang digunakan untuk menambah
informasi pada feature map setelah proses convolution dalam layer CNN.
Di mana dimensi output dapat dimanipulasi agar memiliki dimensi yang
sama dengan input atau setidaknya tidak berkurang secara drastis.
Sehingga bisa menggunakan convolution layer yang lebih dalam dan
mendapatkan lebih banyak ekstraksi dari input.
2.4.3 Loss Function
Sebuah fungsi yang digunakan untuk mengukur perbedaan antara hasil yang
diprediksi dari fungsi persamaan (2.3) sebagai dan label input.

23
1 (2.3)
𝐸(𝑊) = − [𝑦 log 𝑃(𝑥𝑖 = 𝑘)) + (1 − 𝑦 ) 𝑙𝑜𝑔(1 − 𝑃(𝑥
𝑛
= 𝑘))]
di mana W adalah bobot matriks convolutional dan layer yang terhubung
penuh, n menunjukkan jumlah sampel training, i adalah indeks sampel training,
dan k adalah indeks kelas. Jika sampel dengan milik kelas k, yik D 1; selain itu
yik D 0. P (xi D k) adalah probabilitas input xi milik kelas k yang diprediksi oleh
model, yaitu fungsi dari parameter W.
𝜕𝐸(𝑊) (2.4)
𝑤 =𝑤 − 𝛼( )
𝜕𝑊
di mana α adalah tingkat pembelajaran, yang merupakan parameter yang
sangat penting yang menentukan ukuran langkah pembelajaran. K adalah indeks
kelas, artinya sama dengan persamaan (2.4).
2.5 Arsitektur Convolutional Neural Network (CNN)
Dalam perkembangan sejarah algoritma Convolutional Neural Network
(CNN) berawal dari LeNet pada tahun 1990 dalam sebuah karya yang sangat
inovatif oleh Yann LeCun (LeCun & Bengio, 1995) yang mana merupakan
banyak hasil dari pengulangan neural network di mana telah sukses sejak tahun
1988. LeNet mendorong perkembangan fundamental teknik dengan arsitekturnya
CNN bernaman LexNet, di mana saat itu digunakan untuk membuat aplikasi
pengenalan karakter.
Pada abad ke-20 ini arsitektur CNN mulai banyak dikembangkan dengan
dukungan GPU yang memumpuni di abad ini. Perkembangan arsitektur CNN
dimulai dari AlexNet pada tahun 2012 dan terus bertumbuh hingga sekarang. Tim
24
google brain membuat cara cerdas untuk meningkatkan performa algoritma
Convolutional Neural Network sehingga Sekarang disebut EfficientNet Google
AI.
2.5.1 EfficientNet
Dalam penelitiannya Mingxing Tan & Quoc V. Le mempelajari
penskalaan arsitektur Convolutional Neural Network atau ConvNet secara
mendalam dan mengidentifikasi bahwa menyeimbangkan lebar, kedalaman, dan
resolusi jaringan. Kedalaman di sini berarti menambahkan lapisan tambahan di
antara atau di atas model konvolusional dalam yang sudah tersedia. Dengan cara
ini akan menyebabkan model ConvNet membutuhkan lebih banyak daya
komputasi dan sumber daya. Selain itu, setelah kedalaman tertentu, bobot
cenderung jenuh tanpa perbaikan lebih lanjut dalam model (Tan & Le, 2019).
Oleh karena itu, untuk mengatasi masalah ini Mingxing Tan & Quoc V. Le
mengusulkan metode yang disebut EfficientNet yang meningkatkan akurasi model
dan kebutuhan komputasi dengan menskalakan secara efisien ke segala arah
seperti tidak hanya kedalaman, tetapi juga lebar dan resolusi. Idealnya
menyebabkan keseimbangan optimal untuk setiap dimensi relatif terhadap yang
lain. Dengan cara ini, EfficientNet tidak memerlukan kebutuhan komputasi
sebanyak yang dibutuhkan CNN konvensional, sehingga menghasilkan akurasi
yang lebih baik.
Model baseline yang baik diperlukan untuk lebih membangun model di
atasnya yang memiliki performa lebih baik. Di EfficientNet, model dasar
EfficientNet-B0 dibangun menggunakan konvolusi bottleneck terbalik (MBConv)

25
yang mirip dengan MobileNetV2 dan MnasNet. Perbaikan pada model baseline
dilakukan nanti untuk mendapatkan keluarga EfficientNet.
Penjelasan singkat tentang apa itu MBConv dan blok bangunan lain untuk
EfficientNet tersebut. Blok MBConv tidak lain adalah blok Inverted Residual
yang awalnya diusulkan dalam arsitektur CNN MobineNetV2. Dalam blok
Gambar 2.7 Arsitektur EfficientNet-B0 (Blog AI Google, 2020).

residual normal, aliran jaringan biasanya berubah dari struktur lebar ke sempit ke
struktur lebar sehubungan dengan jumlah saluran. Lapisan terakhir dibawa
kembali ke bentuk input yang akan ditambahkan (tujuan blok residual adalah
untuk mencegah hilangnya gradien) Dalam blok residual terbalik, lapisan-
lapisannya berubah dari sempit ke lebar menjadi sempit yang merupakan
kebalikan dari blok residual. Jadi awalnya mengambil masukan berdimensi rendah
dan meluaskannya dengan lapisan konvolusional 1 x 1, diikuti dengan konvolusi
bijak kedalaman 3 x 3 dan kembali ke bentuk masukan menggunakan lapisan
konvolusional 1 x 1. Alasan di balik penggunaan blok Inverted Residual adalah
bahwa, dalam blok residual asli, lapisan ekspansi di antara hanyalah detail
implementasi belaka. Informasi tersebut masih dapat dikaitkan pada dimensi
rendah sehingga kebutuhan komputasi dan waktu berjalan lebih sedikit. Arsitektur
dasar EfficientNet terdiri dari lapisan dalam blok MBConv seperti yang
ditunjukkan pada Gambar 2.7 di mana EfficientNet B1 hingga B7 diperoleh
dengan menggunakan koefisien skala yang berbeda.

26
MobileNet-V2 Dalam blok residual normal, aliran jaringan biasanya
berubah dari struktur lebar ke sempit ke struktur lebar sehubungan dengan jumlah
saluran. Lapisan terakhir dibawa kembali ke bentuk input yang akan ditambahkan.
Tujuan blok residual adalah untuk mencegah hilangnya gradien. Alasan di balik
penggunaan blok Inverted Residual adalah bahwa, dalam blok residual asli,
lapisan ekspansi di antara hanyalah detail implementasi belaka. Informasi tersebut
masih dapat dikaitkan pada dimensi rendah sehingga kebutuhan komputasi dan
waktu berjalan lebih sedikit. Arsitektur dasar EfficientNet terdiri dari lapisan
dalam blok MBConv seperti yang ditunjukkan pada Gambar 2.8.
Gambar 2.8 Arsitektur EfficientNet (Feature Extractor).

Dimana Convolutional Neural Network (CNN) yang terbungkus dalam
arsitektur pre-trained mempunyai formula atau persamaan (2.5) didefinisikan
sebagai:
⨀∙ (2.5)
𝒩= … ℱ (𝑋〈 , , 〉)
Di mana FLi menunjukkan lapisan Fi diulang Li dalam tahap i, (Hi, Wi,
Ci) menunjukkan tensor X dari lapisan i. Penskalaan model mencoba memperluas
panjang jaringan (Li), lebar (Ci), dan / atau resolusi (Hi , Wi) tanpa mengubah Fi
yang telah ditentukan sebelumnya di jaringan baseline. Dengan memperbaiki Fi ,

27
penskalaan model menyederhanakan masalah desain untuk batasan sumber daya
baru, tetapi masih tetap merupakan ruang desain yang besar untuk mengeksplorasi
Li , Ci ,Hi ,Wi yang berbeda untuk setiap lapisan.
, ,𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝒩(𝑑, 𝑤, 𝑟) (2.6)

⊙
𝑑
𝑠. 𝑡 𝒩(𝑑, 𝑤, 𝑟) = ℱ 𝑖. 𝐿𝑖 𝑋〈𝐻𝑖,𝑊𝑖,𝐶𝑖〉
…
𝑀𝑒𝑚𝑜𝑟𝑦(𝒩) ≤ 𝑡𝑎𝑟𝑔𝑒𝑡_𝑚𝑒𝑚𝑜𝑟𝑦
𝐹𝐿𝑂𝑃(𝒩) ≤ 𝑡𝑎𝑟𝑔𝑒𝑡_𝑓𝑙𝑜𝑝𝑠
Pada persamaan (2.6) di mana w, d , r adalah koefisien untuk menskalakan
lebar, kedalaman, dan resolusi jaringan. Simbol dengan kepala adalah parameter
yang telah ditentukan di jaringan baseline. (b) - Kedalaman (d): Menskalakan
kedalaman jaringan adalah cara paling umum yang digunakan oleh banyak
ConvNets. Namun, menskalakan model dasar dengan koefisien kedalaman d yang
berbeda, yang selanjutnya menunjukkan pengembalian akurasi yang semakin
berkurang untuk ConvNets yang sangat dalam. (c) - Lebar (w) : Penskalaan lebar
jaringan biasanya digunakan untuk model ukuran kecil. Jaringan yang lebih luas
cenderung dapat menangkap fitur yang lebih halus dan lebih mudah untuk dilatih.
Namun, jaringan yang sangat luas tetapi dangkal cenderung mengalami kesulitan
dalam menangkap fitur tingkat yang lebih tinggi. (d) - Resolusi (r): Dengan
gambar input resolusi lebih tinggi, ConvNets berpotensi menangkap pola yang
lebih halus. Resolusi yang lebih tinggi meningkatkan akurasi, tetapi perolehan
akurasi berkurang untuk resolusi yang sangat tinggi. Secara intuitif, untuk gambar
beresolusi lebih tinggi, meningkatkan kedalaman jaringan akan menghasilkan
bidang reseptif yang lebih besar yang dapat membantu menangkap fitur serupa
yang menyertakan lebih banyak piksel dalam gambar yang lebih besar. Sejalan
28
dengan itu, kami juga harus meningkatkan lebar jaringan saat resolusinya lebih
tinggi untuk menangkap pola yang lebih halus.
Penskalaan tidak mengubah operasi lapisan, oleh karena itu lebih baik
untuk terlebih dahulu memiliki jaringan dasar yang baik dan kemudian
menskalakannya sepanjang dimensi yang berbeda menggunakan penskalaan
gabungan yang diusulkan. Mingxing Tan dan Quoc V. Le memperoleh jaringan
dasar mereka dengan melakukan Neural Architecture Search (NAS) yang
mengoptimalkan akurasi dan Floating Point Operation Per Second (FLOPS) (Tan
& Le, 2019). Arsitekturnya mirip dengan M-NASNet karena telah ditemukan
menggunakan ruang pencarian yang serupa. Lapisan / blok jaringan seperti yang
ditunjukkan pada Tabel 2.1 Jaringan baseline EfficientNet-B0:
Tabel 2.1 Arsitektur jaringan baseline EfficientNet-B0
Stage Operator ℱ Resolution #Channels #Layer

𝑖 ℋ𝑖 × 𝒲𝑖 𝒞𝑖 ℒ𝑖
1 Conv3x3 224 × 224 32 1
2 MBConv1, k3x3 112 × 112 16 1
3 MBConv6, k3x3 112 × 112 24 2
4 MBConv6, k5x5 56 × 56 40 2
5 MBConv6, k3x3 28 × 28 80 3
6 MBConv6, k5x5 28 × 28 112 3
7 MBConv6, k5x5 14 × 14 192 4
8 MBConv6, k3x3 14 × 14 320 1
9 Conv1x1 & Pooling & 7×7 1280 1
FC
Model baseline yang baik diperlukan untuk lebih membangun model di atasnya
yang memiliki performa lebih baik. Di EfficientNet, model dasar EfficientNet-B0
dibangun menggunakan konvolusi bottleneck terbalik (MBConv) yang mirip
dengan MobileNetV2 dan MnasNet.

29
2.5.2 VGG-19
VGG-19 adalah arsitektur jaringan yang merupakan bentuk dari variasi VGG-
16 yang diciptakan oleh Visual Geometry Group (VGG) di Universitas Oxford
pada tahun 2014 dan menjadi terkenal kerena mendapatkan peforma yang baik
dalam beberapa kasus klasifikasi gambar. Model ini memiliki 16 lapisan
konvolusi dengan filter 3×3, kemudian terdapat 5 pooling layer yang
menggunakan MaxPooling dengan pool size sebesar 2×2 dan 3 fully connected
layer denngan nilai 4096, 4096, 1000 lalu size image untuk memiliki ukuran
224×224 piksel. Detail struktur model VGG19 dapat dilihat pada Gambar 2.9.
Gambar 2.9 Struktur Model VGG-19.
2.5.3 VGG-16
Pada modifikasi VGG-16, arsitektur yang digunakan berjumlah 10 layer.
Seperti pada Tabel 2.2 ukuran filter yang digunakan adalah 3×3 dan filter pada
30
max pooling layer adalah 2×2. Untuk stride yang digunakan adalah 1 pada layer
convolution dan 2 pada layer max polling. Untuk jumlah kernel pada masing-
masing layer dikurangi yaitu pada layer 1 dan 2 menggunakan jumlah 16 sehingga
maxpooling-nya berjumlah 16. Pada layer 3 dan 4 menggunakan jumlah 32, dan
pada layer 5, 6, 7 menggunakan jumlah 64. Hasil dari convolution layer kemudian
akan di klasifikasikan menggunakan fully connected layer sebanyak 2 buah layer
yang masing-masing layernya memiliki jumlah neuron 1000 dan 700.
Tabel 2.2 Struktur Model VGG-16.
Name Filter Size Stride Jumlah

Input
Convolution 1 3×3 1 16
Maxpool 1 2×2 2 16
Maxpool 2 2×2 2 32
Maxpool 3 2×2 2 64
FC 1 1000
FC 2 700
Output 5
2.5.4 MobileNet-V2
MobileNets, merupakan salah satu arsitektur convolutional neural network
(CNN) yang dapat digunakan untuk mengatasi kebutuhan akan computing resource
berlebih. Seperti namanya, Mobile, para peneliti dari Google membuat arsitektur
CNN yang dapat digunakan untuk ponsel. Perbedaan mendasar antara arsitektur
MobileNet dan arsitektur CNN pada umumnya adalah penggunaan lapisan atau
layer konvolusi dengan ketebalan filter yang sesuai dengan ketebalan dari input
31
image. MobileNet membagi konvolusi menjadi depthwise convolution dan
pointwise convolution Arsitektur MobileNet sendiri dipaparkan pada Gambar 2.10
Dalam makalah yang berjudul MobileNets: Efficient Convolutional Neural
Networks for Mobile Vision Applications.
Gambar 2.10 Konvolusi standar (a) dibagi menjadi dua lapisan: depthwise
convolution (b) dan pointwise convolution (c) untuk membuat filter terpisah
secara mendalam (depthwise) (Mark Sandler, 2019).
2.5.5 ResNet-152
Residual neural network atau yang biasa disebut sebagai Resnet adalah salah
satu jenis arsitektur yang cukup populer, arsitektur ini dibuat oleh Kaiming He et
al. Arsitektur ini cukup revolusioner pada saat itu karena arsitektur ini menjadi
32
state-of-the-art pada saat itu tidak hanya dalam klasifikasi, namun dalam semua
kategori termasuk object detection, dan semantic segmentation. Arsitektur CNN
yang memiliki kedalaman tinggi adalah salah satu hal penting dalam membangun
model CNN yang memiliki performa yang baik, namun model CNN yang memiliki
kedalaman yang tinggi juga memiliki masalah, yaitu vanishing gradient problem,
yaitu suatu keadaan di mana hasil gradien yang dipelajari oleh model, tidak dapat
mencapai layer pertama karena mengalami perkalian berkali-kali sehingga layer
pertama tidak menerima gradien apa-apa, atau secara singkatnya, hal ini
menyebabkan suatu CNN tidak dapat belajar dari error yang telah dikalkulasi.
Resnet jenis arsitektur 152 layer
Hal yang diusung oleh Kaiming He et al. pada saat itu adalah dengan
menggunakan sesuatu yang bernama residual block, blok ini adalah blok yang ada
pada tiap lapis arsitektur CNN Resnet dan menjadi fundamental dari arsitektur
tersebut, gambaran dari blok ini dapat dilihat pada Gambar 2.11.
Gambar 2.11 Blok Residual Network (Kaiming He, 2016).
2.5.6 Inception-V4
Inception-v4 adalah varian Inception murni tanpa koneksi residual dengan
kinerja pengenalan citra yang kurang lebih sama seperti Inception-ResNet-v2.

33
Inception-v4 memiliki arsitektur sederhana yang mempunyai lebih banyak modul
seragam daripada Inception-v3.
Arsitektur Inception merupakan arsitektur Convolutional Neural Network
(CNN) yang sangat kompleks karena direkayasa dengan cukup berat. Arsitektur ini
menggunakan banyak teknik untuk meningkatkan kinerja; baik dari segi kecepatan
dan akurasi. Versi populernya adalah Inception-v1, Inception-v2, Inception-v3,
Inception-v4, dan Inception-ResNet (Szegedy C. I., 2016). Inception-v4 adalah
varian Inception murni tanpa koneksi residual dengan kinerja pengenalan citra
yang kurang lebih sama seperti Inception-ResNet-v2. Inception-v4 memiliki
arsitektur sederhana yang mempunyai lebih banyak modul seragam daripada
Inception-v3. Inception-v4 memiliki 3 modul yang sekilas terlihat seperti modul
pada Inception-v2.
2.5.7 DenseNet-201
Pada Gambar 2.12 Convolutional Neural Network (CNN) dirancang untuk
memproses suatu data yang ada dalam bentuk banyak array, contohnya gambar
warna yang terdiri dari 2D array yang mengandung piksel dalam tiga macam
warna yaitu Red, Green, dan Blue seperti yang diilustrasikan pada gambar 1. Ada
berbagai macam bentuk CNN adalah 1D untuk sinyal dan urutan biasanya
digunakan untuk bahasa, 2D untuk gambar atau suara; dan 3D untuk video atau
gambar volumetric Dense Convolutional Network (DenseNet), yang
menghubungkan setiap lapisan/blok ke setiap lapisan/blok lainnya dengan cara
umpan maju. Sedangkan jaringan konvolusional tradisional dengan L lapisan
memiliki koneksi L - satu antara setiap lapisan dan lapisan berikutnya jaringan
memiliki koneksi langsung L (L + 1) / 2. DenseNet memiliki beberapa

34
keunggulan menarik: meringankan masalah gradien-gradien, memperkuat
penyebaran fitur, mendorong penggunaan kembali fitur, dan secara substansial
mengurangi jumlah parameter.
Gambar 2.12 Arsitektur DenseNet (Chenquan Gan, 2018).
2.6 Tinjauan Pustaka
Beberapa tahun ini state-of-the-art penelitian dalam domain pengenalan
ekspresi wajah banyak bermunculan dan sedang hangat-hangatnya dibahas
khususnya menggunakan algoritma CNN dan beberapa arsitektur CNN. berbasis
arsitektur CNN membuat bidang computer vision dan image processing menjadi
begitu power-full dalam hal model pengenalan ekspresi wajah berbasis gambar.
Oleh karena itu, banyak peneliti berlomba-lomba dalam membuat model dari
Arsitektur CNN yang efektif dan efisien dalam hal komputasi dan akurasi yang
tinggi.
2.6.1 Penelitian Terkait
Penelitian dengan topik untuk pengenalan ekspresi wajah dengan model
algoritma Convolutional Neural Network (CNN) paling umum digunakan.

35
Dengan menggunakan dataset terkenal yaitu FER2013, CK+, JAFFE dengan
menggunakan beberapa model pre-trained terkenal seperti (VGG-16, VGG-19,
ResNet-18, ResNet-34, ResNet-50, ResNet-152, Inception-v3 dan DenseNet-161).
Dalam sebuah penelitian pengenalan ekspresi wajah menggunakan
algoritma CNN dengan model pre-trained tipe VGG-16 dengan teknik transfer
learning dengan mempertimbangkan konsep pembelajaran transfer di mana fitur
yang dipelajari dari gambar resolusi tinggi dari kumpulan data besar dari
ImageNet dapat digunakan untuk melatih model kumpulan data yang relatif kecil
tanpa kehilangan kemampuan generalisasi. (Atabansi et al., 2021) menggunakan
arsitektur jaringan VGG-16 pre-trained dengan teknik pembelajaran transfer telah
dilatih dan divalidasi pada dataset Oulu-CASIA NIR yang terdiri dari enam
ekspresi wajah yang berbeda, dan akurasi uji rata-rata 98,11% tercapai.
Dalam penelitian mendalami penerapan model pengenalan ekspresi wajah
dengan memanfaatkan artificial neural network (ANN) dan lebih khusus lagi
Convolutional Neural Network (CNN). (Pune, 2021) Dalam peneliannya
menerapkan konsep dasar dan menyempurnakan hyperparameternya dan
bereksperimen dengan berbagai metode pengoptimalan dan menunjukkan state-
of-the-art akurasi jaringan tunggal sebesar 70,10% pada dataset FER2013 tanpa
menggunakan data pelatihan tambahan. (Pune, 2021) Menyusun arsitektur CNN
dengan kostum pada dataset FER2013 ini termasuk menerapkan teknik
augmentasi gambar diikuti dengan fine tuning arsitektur. (Pune, 2021)
Memanfaatkan ide-ide dasar jaringan saraf khususnya CNN, seperti dropouts,
batch normalization, padding, pooling, strides, kernel size, activation function,
weight initialization techniques, various optimizers, padding and pooling.

36
Dalam makalah ini peneliti mengembangkan model Facial Expression
Recognition (FER) penelitian mengusulkan pemodelan sangat Deep CNN
(DCNN) melalui teknik transfer learning di mana model DCNN pre-trained
diadopsi dengan mengganti lapisan atas padatnya yang kompatibel dengan label
ekspresi wajah kemudian model di fine-tune dengan data emosi wajah (Akhand et
al., 2021). Peneliti menghadirkan solusi Strategi pipeline baru, di mana pelatihan
lapisan padat diikuti dengan menyetel masing-masing blok DCNN yang telah
dilatih sebelumnya secara berurutan. Model Facial Expression Recognition (FER)
yang diusulkan diverifikasi pada model DCNN pre-trained yang berbeda dengan
menggunakan datasets dari gambar wajah KDEF dan JAFFE. Metode yang
diusulkan mencapai akurasi yang luar biasa pada kedua dataset dengan model
yang telah dilatih sebelumnya. Akurasi Facial Expression Recognition (FER)
terbaik yang dicapai oleh DenseNet-161 pada set uji KDEF dan JAFFE masing-
masing adalah 96,51% dan 99,52% (Akhand et al., 2021).
Dalam penelitian yang bertujuan untuk meningkatkan jaringan
FaceLiveNet untuk Facial Expression Recognition (FER) kemudian mengusulkan
kerangka kerja Dense_FaceLiveNet. Selama meneliti (Hung et al., 2019)
menggunakan Dense_FaceLiveNet untuk dua fase pembelajaran transfer. Pertama,
dari data yang relatif sederhana transfer model pengenalan emosi dasar dari
dataset JAFFE dan KDEF ke dataset emosi dasar FER2013 dan diperoleh akurasi
sebesar 70,02%. Kedua, dengan menggunakan model pengenalan emosi dasar dari
dataset FER2013 kemudian di transfer ke model pembelajaran pengenalan emosi,
tingkat akurasi uji mencapai 91,93%, yaitu 12,9% lebih tinggi dari tingkat akurasi
79,03% tanpa menggunakan model pembelajaran transfer, yang membuktikan

37
bahwa penggunaan solusi pembelajaran transfer secara efektif dapat
meningkatkan akurasi pengenalan model pembelajaran pengenalan emosi (Hung
et al., 2019). Selain itu, untuk menguji kemampuan generalisasi Model
Pengenalan Emosi Pembelajaran, video yang direkam oleh mahasiswa dari
universitas nasional di Taiwan selama pembelajaran di kelas digunakan sebagai
data uji. Basis data asli dari emosi belajar tidak mempertimbangkan bahwa siswa
akan memiliki pengecualian seperti di atas alis, mata tertutup dan tangan
memegang dagu. Untuk memperbaiki situasi ini, setelah menambahkan basis data
emosi belajar ke gambar pengecualian yang disebutkan di atas, model dibangun
kembali, dan tingkat akurasi pengenalan model adalah 92,42%. Selanjutnya,
setelah menggabungkan semua data citra siswa dengan database emosi belajar
asli, model dibangun kembali dan diperoleh tingkat akurasi mencapai 84,59%.
Hasil tersebut membuktikan bahwa Model Facial Expression Recognition (FER)
dapat mencapai akurasi pengenalan yang tinggi dengan mengolah gambar yang
tidak dipelajari melalui transfer learning (Hung et al., 2019).
Sebuah makalah yang membahas penelitian tentang pengenalan ekspresi
wajah dengan meneliti dampak metodologi Transfer Learning terhadap model
yang dibuat untuk Facial Expression Recognition (FER). Mengembangkan model
Convolutional Neural Network (CNN) dengan arsitektur tipe VGG dengan
menggunakan kumpulan dataset FER2013 kemudian model dari hasil pelatihan di
evaluasi menggunakan dataset CK+ (Moravčík & Basterrech, 2021). Dalam
penelitian (Moravčík & Basterrech, 2021) mempelajari performa dua arsitektur
CNN, dua arsitektur itu terdiri dari base model dan final model. Base model dibuat
sebagai variasi dari arsitektur standar LetNet-5. Arsitektur yang dievaluasi kedua
38
didasarkan pada VGG. Network arsitektur untuk base model mempunyai tiga
layer konvolusi, 3 x 3 filter, stride 1 dan mempunyai padding dengan ukuran yang
sama. Kemudian Model kedua memiliki empat blok konvolusi, di mana pada
setiap blok terdapat dua convolutional layer diikuti dengan batch normalization.
Teknik max pooling dan dropout juga diterapkan. Saat peneliti mengevaluasi
langsung model melalui kumpulan data CK+, pengklasifikasi yang dikembangkan
mencapai akurasi 69%. Dua pendekatan Transfer Learning dianalisis. Penerapan
metodologi Transfer Learning sangat meningkatkan akurasi dari kira-kira 70%
sampai kira-kira 95% (Moravčík & Basterrech, 2021).
Dalam sebuah penelitian bersama dengan tim Google Brain menghadirkan
solusi yang disebut EfficientNet yang meningkatkan akurasi model dan kebutuhan
komputasi dengan menskalakan secara efisien ke segala arah seperti tidak hanya
kedalaman, tetapi juga lebar dan resolusi. Idealnya menyebabkan keseimbangan
optimal untuk setiap dimensi relatif terhadap yang lain. Dengan cara ini,
EfficientNet tidak memerlukan kebutuhan komputasi sebanyak yang dibutuhkan
model Deep CNN/ConvNets yang dalam pada generasi sebelumnya, sehingga
menghasilkan akurasi yang lebih baik daya komputasi yang efisien (Tan & Le,
2019). Dalam penelitiannya melangkah lebih jauh, menggunakan pencarian
arsitektur saraf untuk merancang jaringan dasar baru dan meningkatkannya untuk
mendapatkan beberapa model, yang disebut EfficientNet, yang mencapai akurasi
dan efisiensi yang jauh lebih baik daripada ConvNets sebelumnya. Secara khusus,
EfficientNet-B7 mencapai akurasi 84,3% top-1 yang canggih di ImageNet,
sementara menjadi 8,4x lebih kecil dan 6,1x lebih cepat dalam inferensi daripada
ConvNet terbaik yang ada. EfficientNet juga dapat mentransfer dengan baik dan
39
mencapai akurasi mutakhir pada dataset CIFAR-100 (91,7%), Bunga (98,8%),
dan 3 set data pembelajaran transfer lainnya, dengan urutan parameter yang lebih
sedikit.
Berbagai penelitian telah dilakukan dalam membuat arsitektur CNN untuk
pengenalan ekspresi wajah dengan pendekatan salah satunya adalah untuk
menyelidiki apakah teknik transfer learning dari kumpulan data ukuran sedang
dan besar untuk meningkatkan kinerja arsitektur lightweight Convutional Neural
Network (CNN). Menggunakan arsitektur CNN berbasis residu yang ringan yang
awalnya digunakan untuk kumpulan data CIFAR untuk menganalisis pengaruh
transfer learning dari lima kumpulan data yang berbeda, termasuk CIFAR10,
CIFAR100, ImageNet32, CINC-10, dan CASIA-WebFace. Dataset FER+ (Facial
Expression Recognition Plus) digunakan untuk mengevaluasi kinerja arsitektur
lightweight CNN. Eksperimen menunjukkan bahwa pengklasifikasi lightweight
Convutional Neural Network (CNN) juga dapat ditingkatkan bahkan ketika
pembelajaran transfer dilakukan dari kumpulan data ukuran menengah
dibandingkan saat melatih pengklasifikasi dari awal (Wikanningrum et al., 2019).
Penelitian ini menggunakan dua arsitektur CNN yang ringan, ResNet-20 dan
ResNet-32, dan meningkatkan kinerja pengklasifikasi melalui pembelajaran
transfer(Wikanningrum et al., 2019). Dalam evaluasi hasil penelitian dalam
penggunaan lightweight CNN untuk penggunaan pengenalan ekspresi wajah
dapat dibandingkan dengan state-of-the-art pada FER+ dataset diperoleh akurasi
single classifier dengan params 0.4 nilai akurasi 83.92% selain itu penggunaan
ensemble classifier menggunakan 0.9 dengan nilai akurasi 84.30%(Wikanningrum
et al., 2019). Pelatihan dalam menggabungkan transfer learning dan konfigurasi

40
weighted ensemble adalah perhatian pekerjaan penelitian ini di masa depan untuk
meningkatkan kinerja classifier. Beberapa dataset ekspresi wajah lainnya juga
menuntut untuk dianalisis menggunakan metode transfer learning menggunakan
arsitektur lightweight Convutional Neural Network (CNN).
Penelitian tentang pengembangan model pengenalan ekspresi wajah
bebasis deep learning terus berlanjut. Pembuatan arsitektur CNN dengan
menggunakan empat layer convolution disertai dengan dua layer untuk lapisan
dalam, di mana setiap layer menggunakan beberapa hyperparameter di lapisan
Convolutional Neural Network (CNN), Seperti MaxPooling, BatchNorm,
menggunakan fungsi aktivasi RELU kemudian DroupOut untuk mengatasi
overfitting. Di mana terdapat dropout sebesar 25% setelah setiap convolution
layer sehingga tidak ada overfitting dalam fase pelatihan (Sharma et al., 2021).
Penelitian ini penulis menggunakan menggunakan dataset ekspresi wajah yang
diberikan oleh Pierre-Luc Carrier dan Aaron Courville dalam makalah mereka.
Kumpulan data ini tersedia di Kaggle [21]. Terdiri dari 35.887 gambar dengan
ekspresi wajah yang berbeda dari banyak orang. kumpulan data terdiri dari 7 label
yang merupakan 7 emosi dasar yang dapat diekspresikan manusia. Fungsi aktivasi
yang digunakan untuk output adalah SoftMax yang juga dikenal sebagai
softargmax atau fungsi eksponensial ternormalisasi. Ini pada dasarnya digunakan
untuk menormalkan output jaringan ke distribusi probabilitas atas output yang
diprediksi kelas (Sharma et al., 2021). Dari model yang peneliti gunakan akurasi
pelatihan yang dicapai adalah 67,5% dan akurasi validasi dicapai adalah 48,3%.
Pengenalan ekspresi wajah (FER) adalah tugas untuk menentukan emosi
seseorang. Dengan kemajuan dalam algoritma Convolutional Neural Network

41
(CNN) akurasi model meningkat. Sebuah peneliti memberikan solusi di mana
Model hybrid CNN dan k-Nearest Neighbor (KNN) dapat meningkatkan akurasi
FER. Penelitian ini penulis menggunakan model CNN-KNN hybrid untuk FER
pada Raspberry Pi 4, di mana menggunakan CNN untuk ekstraksi fitur. kemudian,
K-NN melakukan pengenalan ekspresi (Nadhir et al., 2021). Dengan
menggunakan teknik transfer learning untuk membangun model pengenalan
ekspresi wajah dengan model EfficientNet-Lite. Model hybrid yang di usulkan
menggantikan lapisan Softmax di EfficientNet dengan algoritma KNN. Peneliti
menggabungkan data pelatihan tambahan dari JAFFE dan KDEF dengan set data
pelatihan FER-2013. Model hybrid menggunakan CNN untuk ekstraksi fitur dan
K-NN sebagai classifier dapat meningkatkan akurasi model FER pada dataset
FER-2013. Model CNN-KNN hybrid menghasilkan akurasi 75,3%, peningkatan
0,6% dari model CNN dan peningkatan akurasi 0,1% dibandingkan dengan state-
of-the-art model FER yang canggih seperti CNN dengan VGG (Nadhir et al.,
2021).
Dalam sebuah penelitian membangun model pengenalan ekspresi wajah
(Minaee et al., 2021) mengusulkan pendekatan berdasarkan attentional
convolutional network yang mampu fokus pada bagian penting dari wajah dan
mencapai peningkatan yang signifikan dibandingkan model sebelumnya pada
beberapa kumpulan data, termasuk FER-2013, CK+, FERG, dan JAFFE.
Penelitian ini menggunakan teknik visualisasi yang mampu menemukan daerah
wajah yang penting untuk mendeteksi emosi yang berbeda berdasarkan output
pengklasifikasi. Melalui eksperimen ini menunjukkan bahwa setiap gambar emosi

42
yang berbeda memiliki perbedaan yang sensitif terhadap bagian wajah yang
berbeda (Minaee et al., 2021).
Dalam penelitian ini mengajukan arsitektur model yang diusulkan yaitu
bagian feature extraction terdiri dari fitur dari empat lapisan convolutional,
dengan setiap dua diikuti oleh lapisan max-pooling dan fungsi aktivasi rectified
linear unit (ReLU). Kemudian diikuti oleh lapisan dropout dan dua lapisan fully
connected layers. Transformator spasial (jaringan lokalisasi) terdiri dari dua
lapisan konvolusi (masing-masing diikuti oleh max-pooling dan ReLU) dan dua
lapisan fully connected layers. Setelah meregresi parameter transformasi, input
ditransformasikan ke grid sampling T(θ), menghasilkan data yang dilengkungkan.
Modul transformator spasial pada dasarnya mencoba untuk fokus pada bagian
gambar yang paling relevan dengan memperkirakan sampel di atas wilayah yang
diinginkan. Model ini kemudian dilatih dengan mengoptimalkan loss function
menggunakan stochastic gradient descent dan lebih khusus, pengoptimalan Adam
(Minaee et al., 2021).
Tabel 2.3 Perbandingan Riset Mengenai Model Pengenalan Ekspresi Wajah.

No Publikasi Solusi Dataset Hasil Evaluasi
1. (Atabansi et al., Dengan tekik transfer Oulu-CASIA dataset Oulu-

learning dimana fitur
2021) NIR CASIA NIR
yang dipelajari dari
yang terdiri
gambar resolusi tinggi
dari kumpulan data dari enam
besar dari ImageNet
ekspresi wajah
digunakan untuk
yang berbeda,
melatih model
kumpulan data Oulu-
43
CASIANIR. dan akurasi uji

menggunakan
rata-rata
arsitektur jaringan
98,11%
VGG-16 pre-trained
2. (Pune, 2021) Menyusun arsitektur FER2013 70.10%
CNN dengan kustom
pada dataset FER2013
ini termasuk
menerapkan teknik
augmentasi gambar
diikuti dengan fine
tuning arsitektur.
3. (Akhand et al., teknik transfer KDEF dan DenseNet-161
2021) learning di mana JAFFE pada set uji
model DCNN pre- KDEF dan
trained adopsi dengan JAFFE masing-
mengganti lapisan masing adalah
atasnya yang 96,51% dan
kompatibel dengan 99,52%
label ekspresi wajah
kemudian model di
fine-tune dengan data
emosi wajah
4. (Hung et al., Dense_FaceLiveNet JAFFE, KDEF akurasi sebesar

44
2019) untuk dua fase FER2013 70,02%.
pembelajaran transfer. Kedua, dengan
Pertama, dari data menggunakan
yang relatif sederhana model
transfer model pengenalan
pengenalan emosi emosi dasar
dasar dari dataset dari dataset
JAFFE dan KDEF ke FER2013
dataset emosi dasar kemudian di
FER2013 transfer ke
model
pembelajaran
pengenalan
emosi, tingkat
akurasi uji
mencapai
91,93%, yaitu
12,9% lebih
tinggi dari
tingkat akurasi
79,03%
5. (Moravčík & Mengembangkan FER2013, CK+ 70% to approx
Basterrech, model Convolutional 95%

45
2021) Neural Network
(CNN) dengan
arsitektur tipe VGG
dengan menggunakan
kumpulan dataset
FER2013 kemudian
model dari hasil
pelatihan di evaluasi
menggunakan dataset
CK+
6. (Tan & Le, Dalam penelitiannya ImageNet, 84.3%, 91.7%,
2019) melangkah lebih jauh, CIFAR-100 98.8%
menggunakan (91,7%), Bunga
pencarian arsitektur (98,8%), dan 3
saraf untuk merancang set data
jaringan dasar baru pembelajaran
dan meningkatkannya transfer lainnya
untuk mendapatkan
beberapa model, yang
disebut EfficientNet,
yang mencapai akurasi
dan efisiensi yang jauh
lebih baik daripada

46
ConvNets sebelumnya
7. (Wikanningrum menggunakan dua FER+ (Facial Single
et al., 2019) arsitektur CNN yang Expression Classifier
ringan, ResNet-20 dan Recognition (Best) 83.92%
ResNet-32, dan Plus) Ensemble
meningkatkan kinerja Classifier
pengklasifikasi (Best) 84.30%
melalui pembelajaran
transfer dan
konfigurasi ensemble.
8. (Sharma et al., Menggunakan Dataset ekspresi Akurasi
2021) arsitektur CNN wajah yang training 67.5%
dengan menggunakan diberikan oleh dan akurasi
empat layer convolusi Pierre-Luc testing 48.3%
disertai dengan dua Carrier dan
layer untuk lapisan Aaron Courville
dalam, dimana setiap
layer menggunakan
beberapa
hyperparameter di
lapisan Convolutional
Neural Network
(CNN)
47
9. (Nadhir et al., Model hybrid CNN menggabungkan 75.3%
2021) dan k-Nearest pelatihan data
Neighbor (KNN) tambahan dari
menggunakan model JAFFE dan
CNN-KNN hybrid KDEF dengan
untuk FER pada dataset
Raspberry Pi 4, CNN pelatihan FER-
untuk ekstraksi fitur 2013
dan KNN melakukan
pengenalan ekspresi
dengan teknik transfer
learning model
EfficientNet-Lite.
Model hybrid yang di
usulkan memakai
lapisan Softmax di
EfficientNet dengan
algoritma KNN
10. (Minaee et al., Mengusulkan FER-2013, 70.2%, 98.0%,
2021) pendekatan CK+, FERG, 99.3%, 92.8%
berdasarkan dan JAFFE
attentional
convolutional network
48
yang mampu fokus
pada bagian penting
dari wajah. Penelitian
ini menggunakan
teknik visualisasi yang
mampu menemukan
daerah wajah yang
penting untuk
mendeteksi emosi
yang berbeda
berdasarkan output
pengklasifikasi
2.6.2 Analisis Tinjauan Pustaka
Berdasarkan Tabel 2.1 tinjauan pustaka dalam penelitian berkisar lima
tahun terakhir, sebagian besar peneliti menggunakan teknik termasuk di
dalamnya transfer learning untuk menyelesaikan masalah pengenalan ekspresi
wajah berbasis gambar khususnya menggunakan model arsitektur Convolutional
Neural Network (CNN). Dalam pembuatan model model pengenalan ekspresi
wajah terdapat beberapa macam datasets yang digunakan oleh peneliti di
antaranya yaitu FER2013, JAFFE, KDEF dan CK+. Penelitian yang dilakukan
(Akhand et al., 2021) merupakan penelitian dengan akurasi terbaik saat ini dengan
menggunakan teknik transfer learning dari beberapa model arsitektur terkenal

49
dari kompetisi ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
dengan menggunakan dataset KDEF dan JAFFE.
Akhan dkk dapat memberikan hasil dengan akurasi terbaik dalam
penelitian yang dilakukan karena mengusulkan pemodelan sangat dalam dengan
menggunakan Deep Convolutional Neural Network (DCNN) melalui teknik
Transfer Learning (TL) di mana model DCNN pra-terlatih diadopsi dengan
mengganti lapisan atas yang padat kemudian di cairkan beberapa lapisan tertentu
atau melakukan fine-tune sehingga model kompatibel dengan ekspresi wajah.
Strategi pipeline baru diperkenalkan, di mana pelatihan lapisan padat dari
arsitektur pre-trained Deep CNN digunakan untuk feature extractor kemudian
diikuti dengan menyetel masing-masing blok arsitektur DCNN pra-terlatih yang
telah dilatih sebelumnya secara berturut-turut sehingga menghasilkan peningkatan
akurasi model. Model pengenalan ekspresi wajah yang diusulkan diverifikasi pada
model DCNN pra-terlatih yang berbeda (VGG-16, VGG-19, ResNet-18, ResNet-
34, ResNet-50, ResNet-152, Inception-v3 dan DenseNet-161). Menggunakan 10-
fold cross-validation memperoleh akurasi terbaik dalam pengenalan ekspresi
wajah dicapai menggunakan arsitektur DenseNet-161 dengan akurasi test sets
pada datasets KDEF dan JAFFE yaitu 96.51% dan 99.52% (Akhand et al., 2021).
Dalam penelitian (Akhand et al., 2021) memiliki beberapa kelemahan
yakni, menggunakan model arsitektur DenseNet-161 sangat berpengaruh terhadap
dalam komputasi yang parallel artinya jika menggunakan model sequential proses
training akan berjalan sangat lambat ini dikarenakan jaringan yang sangat dalam.
Untuk mengatasi kelemahan tersebut penulis menggunakan arsitektur standar
CNN, kemudian menggunakan model arsitektur pre-trained yang mana

50
mempunyai parameter yang relatif sedikit disebut dengan EfficientNet, di mana
Tan & Le meningkatkan akurasi model dan kebutuhan komputasi dengan
menskalakan secara efisien ke segala arah seperti tidak hanya kedalaman, tetapi
juga lebar dan resolusi. Idealnya menyebabkan keseimbangan optimal untuk
setiap dimensi relatif terhadap yang lain. Dengan cara ini, EfficientNet tidak
memerlukan kebutuhan komputasi sebanyak yang dibutuhkan seperti model
arsitektur CNN sebelumnya, sehingga diharapkan akan menghasilkan akurasi
yang lebih baik dan daya komputasi yang lebih efisien. Dalam penelitian ini
penulis menggunakan publik datasets CK+ (Extended Cohn-Kanade Dataset) dan
JAFFE.
Dalam makalah ini peneliti mengusulkan model pengenalan ekspresi
wajah dengan model standar CNN dan EfficientNet kemudian melakukan teknik
transfer learning (TL) untuk mengurangi upaya komputasi sehingga lebih efisien.
Teknik TL adalah metode yang populer untuk membangun model dengan cara
menghemat waktu di mana pembelajaran dimulai dari pola-pola yang sudah
dipelajari (Oquab et al., 2014). Dalam model Facial Expression Recognition
(FER) yang diusulkan dalam penelitian ini adalah model pra-terlatih EfficientNet
(Tan & Le, 2019), VGG-19 (Mahendran & Vedaldi, 2016), VGG-16(Atabansi et
al., 2021), MobileNet-V2(Sandler et al., 2018), ResNet-152(He et al., 2016),
Inception-V3 (Szegedy et al., 2016), DenseNet-201 (Huang et al., 2018) awalnya
dimodelkan untuk klasifikasi gambar, diadopsi dengan mengganti lapisan atasnya
padat dengan melakukan unfreeze semua layer arsitektur pre-trained untuk
membuatnya kompatibel dengan ekspresi wajah kemudian membekukan kembali
semua layer kecuali beberapa layer tertetu yang dekat dengan lapisan output
51
untuk dilatih ulang dengan nilai learning rate yang kecil. Dengan strategi fine-
tune diterapakan pada setiap arsitektur model pre-trained untuk mengenali pola
datasets CK+ dan JAFFE.

BAB III METODOLOGI
3.1 Kerangka Pikir
Pada bab tiga ini akan dijelaskan beberapa tahapan, yaitu kerangka
berpikir dan tahapan penelitian yang dilakukan, perencanaan model yang akan
dibuat serta solusi dan rencana evaluasi model pengenalan ekspresi wajah
menggunakan arsitektur standar Convolutional Neural Network (CNN) dan
teknik transfer learning menggunakan tujuh arsitektur pre-trained Deep
Convolutional Neural Network. Dalam melakukan penelitian ini, untuk
mempermudahnya maka dijabarkan langkah-langkah apa saja yang akan diambil
dalam melakukan penelitian ini. Kerangka pikir dari penelitian ini di
representasikan pada Gambar 3.1.
Gambar 3.1 Kerangka Pikir Penelitian.
52
53
Dalam melakukan penelitian ini tahap pertama adalah menentukan tahap
penelitian. dalam tahap penelitian yang pertama adalah menentukan sebuah ide
suatu penelitian dari analisis literatur, berupa paper/makalah dari jurnal
berkualitas yang berkaitan dengan model pengenalan ekspresi wajah khususnya
menggunakan algoritma Convolutional Neural Network (CNN) dan teknik
transfer learning. Kemudian dari analisis tersebut peneliti menemukan sebuah
masalah dari model pengenalan ekspresi wajah. Dari masalah tersebut peneliti
menemukan sebuah solusi untuk menyelesaikan atau memperbaiki masalah
tersebut sehingga dibuatlah rumusan masalah penelitian atau reseach question.
Tahap selanjutnya adalah tahap implementasi model pengenalan ekspresi
wajah dengan model CNN dan menggunakan teknik transfer learning dengan
tujuh arsitektur pre-trained Deep CNN. Langkah pertama peneliti melakukan
pengumpulan data dari ekspresi wajah dasar manusia yaitu, senyum, sedih,
marah, takut, jijik, terkejut, dan netral dataset ini bernama CK+ (Lucey et al.,
2010) dan JAFFE(Lyons et al., 1997). Dataset ini akan dibagi menjadi tiga bagian
yaitu data training set, validation set dan data testing set. Kemudian sebelum citra
masuk ke dalam sebuah arsitektur model, dilakukan proses image augmentation.
Augmentasi gambar ini bertujuan untuk semakin banyak informasi yang diterima
oleh model tanpa memerlukan penambahan dataset tertentu sehingga model dapat
terhindar dari masalah overfitting dan dapat meningkatkan akurasi model.
Dalam implementasi model ini gambar akan masuk sebuah model dengan
ukuran resolusi 224x224 piksel khususnya untuk teknik transfer learning. Ketika
menggunakan model CNN standar input gambar akan dibedakan dari 360×360
hingga 48×48. Model arsitektur ini adalah algoritma Convolutional Neural

54
Network (CNN) dan tujuh model pre-trained Deep Convolutional Neural
Network. Dimana setiap model pre-trained Deep CNN yang padat pada layer
bawahnya bekerja sebagai feature extractor untuk mengenali citra yang
dimasukkan. lapisan yang padat ini berisi banyak layer-layer proses konvolusi
pada tiap lapisannya yang berfungsi sebagai dimension reduction tanpa
mengurangi informasi yang penting dari citra. Setelah gambar melalui proses
feature extractor kemudian dilakukan fine-tuning dimana lapisan atas arsitektur
pre-trained dicairkan sehingga sesuai dengan khasus dalam tujuh label ekspresi
wajah proses ini disebut feature classification. setelah itu peneliti akan
melakukan proses pelatihan dan pengujian dengan melakukan beberapa metode
hyperparameter tuning.
Kemudian langkah selanjutnya adalah evaluation and analysist result. dalam
tahap ini peneliti menggunakan perfomance metric untuk mengukur akurasi
performa dari model. Di mana peneliti menggunakan classification metrics untuk
menghitung rasio prediksi benar dibagi dengan rasio prediksi salah. Jika akurasi
tercapai maka model arsitektur akan disimpan untuk digunakan dalam pengujian
yang disebut validation test.
3.2 Skenario Eksperimen Model

Dalam hal ini digambarkan bagaimana skenario dari eksperimen dari
setiap model arsitektur pre-trined Deep Convolutional Neural Network dalam
pembuatan model dengan metode transfer learning. Gambar 3.2 dapat dijelaskan
yang mana setiap dari arsitektur pre-trained, masing-masing dilakukan sebagai
feature extraction kemudian dalam fase ini peneliti akan melatih model pertama
dengan menggunakan 50 epochs dan learning rate 0.0001 dalam fase ini setiap
55
arsitektur Deep CNN dalam keadaan unfreeze. Ketika model belajar dalam fase
pelatihan pertama, model akan menyimpan bobot atau informasi yang telah
dipelajari dari ImageNet. Setelah itu dilanjutkan melakukan fase pelatihan yang
kedua dengan melakukan unfreeze 6-layer setiap arsitertur pre-trained yang dekat
dengan lapisan output kemudian melatihnya ulang dengan nilai learning rate
sepuluh kali lebih kecil yaitu 0.00001 kemudian melanjutkan dengan
menambahkan dari 51-100 iterasi. Dalam hal ini peneliti akan melakukan pada
tujuh arsitektur yang berbeda dalam pre-trained Deep CNN yaitu EfficientNet-
B0, VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152 dan DenseNet-
201 pada kumpulan dataset publik CK+ dan JAFFE.
Gambar 3.2 Research Model.
3.2.1 Desain Model
Sebelum model pada penelitian ini dibangun, perlu adanya sebuah desain
dari model yang akan dibangun terlebih dahulu. Desain model ini akan menjadi
gambaran besar seperti apa jalannya model yang akan dibangun nantinya. Dari
desain model itu akan terlihat pada bagian mana algoritma CNN dan pre-trained
56
Deep Convolutional Neural Network nanti akan diimplementasikan sehingga
menghasilkan sebuah model. Secara sederhana desain dari model identifikasi
ekspresi wajah ini tergambar pada Gambar 3.3 di bawah ini.
Gambar 3.3 Desain Model
3.2.2 Implementasi Model Pre-Trained Deep CNN
Dalam penelitian ini pertama melakukan eksperimen menggunakan model
Pre-Trained Deep CNN salah satunya EfficientNet-B0 yang padat pada layer
bawahnya bekerja sebagai feature extractor dari citra yang dimasukkan.
Kemudian lapisan yang padat ini berisi banyak layer-layer proses konvolusi pada
tiap lapisannya yang berfungsi sebagai dimension reduction tanpa mengurangi
informasi yang penting dari citra. Setelah gambar melalui proses feature extractor
kemudian dilakukan fine-tuning dimana lapisan atas EfficientNet-B0 dicairkan
dan melatihnya ulang dengan data yang sesuai dengan khusus dalam tujuh label
ekspresi wajah proses ini disebut feature classification. Dalam tahap implementasi
model, penelti akan melakukan pembuatan model dari arsitektur pre-trained Deep
CNN diilustrasikan dalam diagram alir pada Gambar 3.4.

57
Gambar 3.4 Diagram Alir Implementasi Arsitektur Deep CNN.
Dalam penelitian ini setiap dari model pre-trained Deep CNN digunakan
sebagai feature extractor dan sebagian layer atas yang padat di cairkan, kemudian
dilanjutkan dengan melatih ulang arsitektur pada khusus tujuh ekspresi model. Di
mana prinsip ini peneliti menggunakan layer bagian bawah yang padat dari setiap
model deep CNN sebelumnya model telah belajar dari dataset ImageNet.
Proses selanjutnya adalah training dengan menentukan model yang akan
digunakan dan parameter list yang akan ditentukan seperti learning rate dan
jumlah epoch training. Pada proses ini keakuratan akan dihitung menggunakan
loss function, kategori crossentropi dan perhitungan waktu training. Proses testing
dengan menggunakan konsole yang ada di google collaboration, dalam hal ini
akan dilakukan setelah proses training selesai dengan memberikan data testing
sehingga dapat dilakukan evaluasi akurasi.
Dalam penelitian ini untuk melatih dan bereksperimen dalam hal menguji
kinerja State of the Art setiap model, peneliti menggunakan framework
TensorFlow, menggunakan bahasa pemrograman Python, dalam hal ini proses
training peneliti menggunakan GPU dari google dengan spesifikasi pada Gambar
3.5 sebagai berikut:

58
Gambar 3.5 Spesifikasi Mesin untuk Proses Training.
3.3 Benchmark Datasets

Ada beberapa datasets terkenal yang tersedia untuk penggunaan dalam
pembuatan model pengenalan ekspresi wajah seperti (FER2013, KDEF, JAFFE,
CASIA-WebFace, IMED). Khusus dalam tesis ini peneliti menggunakan datasets
CK+(Extended Cohn-Kanade Dataset) dan The Japanese Female Facial
Expression (JAFFE). Untuk gambar CK+ dikategorikan ke dalam tujuh kelas
emosi yang berbeda: takut, marah, jijik, sedih, bahagia, terkejut, netral.
Sedangkan untuk datasets JAFFE dikategorikan ke dalam tujuh kelas emosi yang
berbeda: takut, marah, jijik, bahagia, netral, sedih dan terkejut.
Dalam penelitian ini peneliti membagi datasets CK+ dan JAFFE menjadi
tiga bagian yaitu: 80% untuk pelatihan, 10% untuk validasi dan 10% untuk
testing. Di mana setiap bagian ditaruh dalam tiga folder yang berbeda. Data untuk
pelatihan dan validasi digunakan untuk proses training dalam pembuatan model.
Data validasi untuk proses pengujian setelah proses pembuatan model. Untuk
tampilan datasets CK+ dapat dilihat pada Gambar 3.6.

59
Gambar 3.6 Kelas Ekspresi Datasets CK+ ( Patrick Lucey, 2010).

Dataset JAFFE mengandung gambar ekspresi dari wanita jepang yang
diambil dari Psychology Department at Kyushu University. Dataset JAFFE
dikumpulkan dalam environment yang terkendali untuk menghasilkan ekspresi
wajah secara frontal. Selain itu, JAFFE mengandung varian wajah secara local
dengan tujuh kelas ekspresi wajah. Dataset JAFFE berjumlah relatif kecil dengan
hanya 213 gambar frontal dari 10 individu. Dataset ini dipilih untuk melihat
bagaimana sebuah dataset kecil merespons pelatihan model. Selain itu, sejumlah
esar penelitian menggunakan dataset JAFFE untuk mengevaluasi model FER.
Untuk tampilan datasets JAFFE dapat dilihat pada Gambar 3.7.
Gambar 3.7 Contoh gambar dari dataset JAFFE.

60
3.4 Pre-processing Data

Dalam hal ini pre-processing dilakukan agar gambar dapat dipelajari
secara optimal oleh model. Dalam hal ini cropping wajah dilakukan untuk
mengambil bagian gambar wajah saja, daerah yang bukan wajah dibuang agar
tidak terlalu membebani komputasi dan informasi yang tidak penting dalam
gambar tidak dipelajari oleh model. Seperti yang diketahui, untuk mendapatkan
performa optimal, membutuhkan banyak varian data.
3.4.1 Augmentasi Gambar
Seperti yang diketahui, pada Gambar 3.8 untuk mendapatkan performa
optimal, membutuhkan data dengan jumlah yang banyak. Data augmentasi adalah
sebuah teknik memanipulasi sebuah data tanpa kehilangan inti atau esensi data
tersebut. Augmentasi yang dilakukan sebagai berikut Horizontal Flip, Rotation
0.2, Shear_Range 20, Fill_Mode = “nearest”.
Gambar 3.8 Augmentasi gambar.

61
3.4.2 Pembagian CK+ dan JAFFE
Berikut ini adalah CK+ (Extended Cohn-Kanade Dataset) dan JAFFE
yang digunakan peneliti untuk melatih model. Di mana dari kelas masing-masing
mempunyai jumlah gambar yang berbeda-beda. Penjabaran jumlah tiap kelas
dapat dilihat pada Tabel 3.1.
Tabel 3.1 Jumlah Gambar Tiap Kelas Dataset CK+(data training).
Dataset CK+ Training Dataset
Kelas Emosi Wajah Jumlah Gambar
Marah 109
Jijik 141
Takut 59
Senang 165
Sedih 66
Terkejut 199
Netral 261
Total 1000
Kemudian jumlah gambar untuk validation training dalam proses training
di dalam setiap model arsitektur dapat dilihat pada Tabel 3.2. dalam tabel ini juga
disajikan jumlah gambar tiap kelas untuk validation training.

62
Tabel 3.2 Jumlah Gambar Tiap Kelas Datasets CK+ (validation training).
Dataset CK+48 Validation Dataset
Marah 13
Jijik 18
Takut 8
Senang 21
Sedih 9
Kaget 26
Neutral 33
Total 128
Selanjutnya adalah pengumpulan data testing. Yang mana data testing
digunakan untuk menguji sebuah model. Berikut ini adalah tabel 3.3 dapat dilihat
sebagai berikut.
Tabel 3.3 Jumlah Gambar Tiap Kelas Datasets CK+ (data testing).
Citra Testing Dataset
Marah 13
Jijik 18
Takut 8
Senang 21
Sedih 9
Kaget 26
63
Citra Testing Dataset
Neutral 33
Total 128
Berikut ini tabel 3.4 jumlah masing-masing tiap kelas JAFFE yang
digunakan untuk training set.
Tabel 3.4 Jumlah Gambar Tiap Kelas Datasets JAFFE (data training).
Dataset JAFFE Training Dataset
Marah 24
Jijik 23
Takut 26
Senang 25
Sedih 25
Terkejut 24
Netral 24
Total 171
Selanjutnya adalah tabel 3.5 jumlah masing-masing tiap kelas JAFFE yang
digunakan untuk validation set.

64
Tabel 3.5 Jumlah Gambar Tiap Kelas Datasets JAFFE (data validation).
Dataset JAFFE Validation Dataset
Marah 3
Jijik 3
Takut 3
Senang 3
Sedih 3
Terkejut 3
Netral 3
Total 21
Berikut ini tabel 3.6 jumlah masing-masing tiap kelas JAFFE yang
digunakan untuk testing set.
Tabel 3.6 Jumlah Gambar Tiap Kelas Datasets JAFFE (data testing).
Dataset JAFFE Testing Dataset
Marah 3
Jijik 3
Takut 3
Senang 3
Sedih 3
Terkejut 3
65
Dataset JAFFE Testing Dataset
Netral 3
Total 21
3.5 Implementasi CNN Model Sequential

Sebelum CK+ dan JAFFE diimplementasikan menggunakan delapan
arsitektur EfficientNet pre-trained. Peneliti terlebih dahulu membuat sebuah
model standar Convolutional Neural Network (CNN) atau disebut dengan
sequential model CNN. Kemudian model standar CNN ini digunakan untuk
mengenali pola dari datasets CK+ dan JAFFE. Yang mana CNN standar ini
dengan dua layer dengan dengan ukuran kernel 5 × 5 dan MaxPooling 2 × 2,
kemudian menggunakan berbagai ukuran input dari 360 × 360 hingga 48 × 48
piksel pada set data CK+ dan JAFFE. Ukuran tes dipilih secara acak 10% dari
data yang tersedia. Hasil yang disajikan adalah akurasi testing set terbaik untuk
total 50 epochs. Berikut ini adalah simulasi gambar 3.9 arsitektur standar CNN
model Sequential.
66
Gambar 3.9 Arsitektur Standar CNN.
3.5.1 Fine-Tuning
Strategi fine-tuning adalah mencairkan beberapa blok lapisan atas model
EfficientNet-B0 yang sebelumnya padat. Di mana lapisan-lapisan atas ini
digunakan sebagai Classifier (Feature Classification) yang akan belajar tujuh
kelas dari ekspresi wajah proses ini biasa disebut fine-tuning yang mana melatinya
ulang pada custom datasets CK+ dan JAFFE. Agar layer-layer pada neuron-
neuron classifier berupa jaringan neural network sesuai dengan kelas model
pengenalan ekspresi wajah dalam hal ini menambahkan 7 neuron untuk masing-
masing ekspresi. Untuk mengaktifkan nilai bobot dari hidden layer kemudian
masuk pada layer output digunakan fungsi aktivasi softmax. Berikut ini adalah
gambar 3.10 Proses Fine-Tuning pada lapisan Classifier merupakan penggalan

67
asitektur lapisan yang dekat dengan atas dari EfficienNet-B0 dan penambahan
fully connected layer.
Gambar 3.10 Proses Fine-Tuning pada lapisan Classifier.

Dalam setiap blok yang telah di unfrozen dari arsitektur EfficientNet-B0
ini yang mana sebelumnya telah belajar dari ImageNet, nantinya akan dilakukan
proses pelatihan ulang pada lapisan 7-layer yang telah dicairkan. Tujuannya
adalah model akan belajar kembali dari tujuh kelas ekspresi pada CK+ dan
JAFFE. dalam setiap blok mengandung operasi matematika seperti pada formula
algoritma Convolutional Neural Network (CNN), Persamaan (3.1) adalah formula
convolution layer, dalam hal ini peneliti menggunakan nilai learning rate yang
kecil agar supaya apa yang telah dipelajari oleh arsitektur EfficientNet-B0 dan
Deep CNN lainnya dari ImageNet tidak rusak dan untuk menghasilkan nilai
akurasi yang tinggi dan grafik loss yang lembut.
ℎ = 𝐷𝑓(𝑤 ∗ 𝑥) (3.1)
Di mana * mewakili operasi convolution, Wi mewakili filter convolution
pada layer, dan f mewakili fungsi aktivasi. Wi D [Wi1; Wi2; WiK], K adalah
nomornya kernel convolution dari layer. Setiap kernel WK i adalah M x M x N
matriks berat dengan M menjadi ukuran jendela dan N menjadi jumlah saluran
68
input. Pada persamaan (3.1) merupakan penjelasan proses dari formula
convolutional layer.
Setelah proses konvolusi dan kemudian dilakukan flattening, kemudian
akan masuk pada fully connected layer. Dalam layer ini berisi hidden layer
jaringan neural network. Dalam layer ini digunakan formula multi layer
perceptron pada persamaan (3.2) dimana, dalam struktur ini menambahkan tiga
hidden layer yaitu input layer, hidden layer dan output layer. hidden layer dan
output layer mengandung beberapa neuron. Untuk output layer digunakan
neuron. dalam hal ini nilai bobot terhubung pada setiap layer, dengan
menggunakan backpropagation ketika terjadi update bobot.
(3.2)
𝑍= 𝑊 𝒴 +𝜃
Di mana, bobot unit vektor i dilambangkan dengan Wji, sedangkan nomor
unit neuron dinyatakan dengan k. Hasil yang berasal dari unit j dilambangkan
dengan yj, di mana bias unit i ditunjukkan dengan yi. Total tertimbang Z, sinyal
yang diterima dari unit i, kemudian disebarkan oleh fungsi transmisi f untuk
menghitung Yiˆ untuk unit i.
Pada output layer digunakan fungsi softmax dalam setiap unit neuron,
untuk menghasilkan nilai prediksi dengan nilai 0.0 sampai 1. Hal ini berguna
dalam klasifikasi karena memberikan ukuran kepastian pada klasifikasi. Fungsi
aktivasi softmax ditampilkan pada persamaan (3.3).
(3.3)
𝑍= 𝑊 𝒴 +𝜃
69
3.5.2 Proses Training Stage dan Testing Stage
Dalam pembuatan model pengenalan ekspresi wajah yang akan dilakukan
untuk mendapatkan pola dari CK+ dan JAFFE menggunakan algoritma CNN
standar dan arsitektur pre-trained Deep CNN dengan pendekatan transfer
learning. Peneliti bereksperimen menggunakan skema dalam pembuatan model
dan pengujian training, validation dan testing. Berikut Gambar 3.4 skema
training dan testing.
Gambar 3.11 Skema Proses Training dan Testing.

70
Dalam pembuatan model pengenalan ekspresi wajah, agar mendapatkan
akurasi pengenalan objek yang tinggi maka arsitektur pre-trained, pada layer
bagian atas yang sebelumnya telah di cairkan yang perlu dilatih terlebih dahulu
dengan data training CK+ dan JAFFE. Tujuan dari melatih model ini adalah
untuk menemukan ciri dari setiap gambar dari ekspresi wajah CK+ dan JAFFE,
kemudian menandai neuron-neuron mana yang akan diaktifkan ketika gambar
diklasifikasi. Oleh karena itu, perlu dibuat skema atau model untuk melakukan
pelatihan pada model CNN standar dan pre-trained Deep CNN agar ketika
dilakukan pengujian Facial Expression Recognition (FER), algoritma sudah
terlatih.
Sebelum model algoritma CNN dan tujuh model arsitektur Deep CNN
melakukan pemrosesan gambar data training yang dibutuhkan harus di panggil
terlebih dahulu. Data training yang dipanggil ini merupakan data yang sudah
melalui proses image augmentation untuk memperluas informasi yang akan
diterima oleh model dari data training. Sebalum itu, perlu adanya inisialisasi
beberapa hyperparameter yang perlu di inisialisasi untuk proses training adalah
learning rate, momentum, epoch, bactsize, kernel, stride dan padding.
3.5.3 Inisialisasi Hypertparameter
Sebelum melakukan pemrosesan gambar dari dataset CK+ dan JAFFE
menggunakan algoritma CNN standar dan menggunakan arsitektur tujuh pre-
trained Deep CNN, data training dan data validation training yang dibutuhkan
harus dipanggil terlebih dahulu. Data training dan data validation training yang
dipanggil ini merupakan data yang sudah dilakukan proses data augmentation
yang mana untuk memperluas atau memperbanyak varian pada saat training.
71
Sebalum itu, perlu adanya inisialisasi beberapa parameter learning. Parameter
yang perlu di inisialisasi untuk proses training ini adalah learning rate, batch size
dan epoch. Dalam hal inisialisasi parameter dapat dilihat pada Tabel 3.7.
Tabel 3.7 Inisialisasi Hyperparameter Tunning.
Hyper Parameter Fungsi
Learning Rate Parameter gradient descent yang digunakan untuk proses
update bobot pada parameter yang akan belajar atau training
pada setiap kali iterasi dilakukan
Batch size Jumlah sampel data yang akan disebarkan pada jaringan
neural network dalam satu kali epoch
Epochs Banyaknya putaran yang dilakukan mulai dari awal dataset
pertama hingga akhir
Dalam hal ini nilai learning rate digunakan adalah 0.0001 atau dengan
melakukan tunning parameter sekecil mungkin nilai learning ratenya agar ketika
melakukan retraining setelah proses fine-tuning tidak merusak apa yang telah
dipelajari oleh arsitektur Deep CNN dari ImageNet. Yang mana peneliti juga
menggunakan learning rate schedule. Leaening rate schedule berfungsi sebagai
menjadwalkan nilai learning rate telah berjalan pada beberapa epochs tertentu,
ketika model telah mencapai akurasi yang baik maka secara otomatis nilai
learning akan naik dan iterasi akan berhenti secara otomatis.
Learning rate adalah parameter dari optimizer. Dalam penelitian ini
optimizer yang digunakan adalah Adaptive Moment Estimation (ADAM)
Optimization. Adam adalah algoritma optimisasi yang dapat digunakan sebagai

72
ganti dari prosedur classical stochastic gradient descent untuk memperbarui
bobot secara iteratif yang didasarkan pada data training. Adam dapat dikatakan
merupakan kombinasi antara RMSprop dan Stochastic Gradient Descent dengan
momentum. Adam diperkenalkan oleh Diederik Kingma dari OpenAI dan Jimmy
Ba dari University of Toronto dalam paper ICLR 2015 mereka yang berjudul
“Adam: A Method for Stochastic Optimization”. Adam adalah metode learning
rate adaptif, dimana Adam menghitung learning rate individu untuk parameter
yang berbeda. Nama “Adam” berasal dari “adaptive moment estimation” karena
Adam menggunakan estimasi gradien momen pertama dan kedua untuk
mengadaptasi learning rate untuk setiap bobot jaringan saraf. Berikut ini adalah
formula persamaan (3.4) optimizer Adam.
𝑆𝑡𝑒𝑝 1: 𝑤ℎ𝑖𝑙𝑒 𝑊 𝑑𝑜 𝑛𝑜𝑡 𝑐𝑜𝑛𝑣𝑒𝑟𝑔𝑒𝑠 (3.4)

𝑑𝑜{
𝜕𝑓(𝑥. 𝑤)
𝑆𝑡𝑒𝑝 2: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡 𝑔 =
𝜕𝑤
𝑆𝑡𝑒𝑝 3: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑝 = 𝑚 . 𝑝 − + (1 − 1 ). 𝑔
𝑆𝑡𝑒𝑝 4: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑞 = 𝑚 . + (1 − 1𝑚 ). 𝑔
𝑝
𝑆𝑡𝑒𝑝 5: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑝 =
1−𝑚
𝑞
𝑆𝑡𝑒𝑝 6: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑞 =
1−𝑚
𝑝
𝑆𝑡𝑒𝑝 7: 𝐴𝑝𝑑𝑎𝑡𝑒 𝑡ℎ𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 𝑤 = 𝑤 − 𝛼.
𝑞 +𝜖
}
3.6 Evaluasi State of the Art Model

Dalam penelitian proses evaluasi terdiri dalam dua tahap yaitu: pertama
adalah tahap implementasi ketika dalam proses training berupa akurasi dan
runtime dan kedua evaluasi pada tahap testing. Kemudian model terlatih
sebelumnya di load untuk digunakan dalam proses testing, yang mana menguji
73
10% dari data testing CK+ dan JAFFE dari setiap kelas ekspresi wajah kemudian
di evaluasi mnggunakan performance matric Recel, Precision dan F1-Score.
3.6.1 Evaluasi Model Sequential
Berikut ini adalah hasil evaluasi model untuk penggunaannya dalam
pengenalan dua datasets CK+ dan JAFFE menggunakan standar CNN. Dalam hal
ini adalah model sequential di evaluasi akurasinya dalam setiap input gambar
yang berbeda. Yang mana CNN standar ini dengan dua layer dengan dengan
ukuran kernel 5 × 5 dan MaxPooling 2 × 2, kemudian menggunakan berbagai
ukuran input dari 360 × 360 hingga 48 × 48 piksel pada set data CK+ dan JAFFE.
Ukuran tes dipilih secara acak 10% dari data yang tersedia. Hasil yang disajikan
adalah akurasi testing set terbaik untuk total 50 epochs. Berikut ini adalah Tabel
3.8 hasil evaluasi dari arsitektur standar CNN model Sequential berupa testing
akurasi CNN standar dengan dua lapisan konvolusi pada CK+ dan JAFFE dengan
ukuran input gambar yang berbeda.
Tabel 3.8 Hasil Testing akurasi model CNN Standar.
Resolusi Ukuran Gambar CK+ JAFFE
360 × 360 x x
224 × 224 x x
128 × 128 x x
64 × 64 x x
48 × 48 x x
74
3.6.2 Evaluasi Model Berbasis Transfer Learning
Fine-tuning merupakan mode yang penting dalam model yang berbasis
transfer learning. Dalam eksperimen ini menerapkan dua mode training kedalam
masing-masing model, dengan tiap model memiliki dua cara teknik transfer
learning yang berbeda. Tabel 3.9 menyajikan dua mode teknik tranfer leaning
yang berbeda pertama 50 epoch untuk feature extraction kemudian dilanjutkan 50
epoch fine-tuning dari datasets CK+ dan JAFFE.

Training yang Berbeda dalam Transfer Learning.
Training Mode CK+ JAFFE
Feature Extraction Model x x
Fine-Tuning x x
Dalam evaluasi ini peneliti membandingkan dua mode pelatihan di mana
membandingkan antara model feature extraction dengan model fine-tuning.
Dalam hal ini, dataset CK+ dan JAFFE telah melalui proses augmentasi data
sebelum masuk ke setiap dua model. Pertama, peneliti melakukannya di
EfficientNetB0 sebagai model dasar, kemudian mengatur model dasar dan
membekukan lapisannya dasar sebagai feature extraction. Kemudian mengatur
arsitektur model dengan lapisan atas dari EfficientNet-B0 sehingga dapat dilatih
ulang sesuai dengan khusus tujuh kelas ekspresi wajah. Parameter tuning yang
diberikan pada pelatihan ini menggunakan fungsi loss categorical crossentropy
dan optimizer menggunakan fungsi Adam dengan nilai learning rate masing-
masing 0,0001 dan 0,00001 sehingga model dalam update bobot lebih lembut dan
75
model mendapatkan informasi yang lebih banyak. Model dengan tingkat learning
rate yang lebih rendah adalah solusi terbaik untuk saat melakukan fine-tuning.
Kedua, untuk menerapkan fine-tuning model, penelusur ulang melakukan
Unfreeze semua layer dalam model dasar, kemudian melanjutkan ke Refreeze
setiap layer kecuali 6-layer terakhir yang dekat dengan lapisan output dari
arsitektur EfficientNet-B0. Di mana setiap mode pelatihan untuk setiap model
menggunakan 50 epoch untuk model feature extraction dan kemudian 50 epoch
untuk model fine-tuning ketika akan melakukan pelatihan ulang nilai learning rate
akan di inisialisasi 0,00001.
Untuk menemukan model yang terbaik, peneliti melakukan eksperimen
menggunakan tujuh arsitektur pre-trained Deep CNN dengan pendekatan transfer
learning yang sama untuk setiap arsitektur pre-trained yaitu EfficientNet-B0,
VGG-19, VGG-16, MobileNet-V2, ResNet-152, Inception-V3, DenseNet-201.
Eksperimen dilakukan untuk 10% dari datasets CK+ dan JAFFE yang dipilih
secara acak sebagai testing dan 90% sebagai set pelatihan dan validasi. Tabel 3.10
disajikan perbandingan akurasi testing dengan pre-trained arsitektur EfficientNet
yang berbeda untuk CK+ dan JAFFE.
Tabel 3.10 Perbandingan Akurasi Testing CK+ dan JAFFE dengan Model Pre-
trained yang Berbeda.
Pre-Trained Deep CNN CK+ Dengan 10% Data JAFFE Dengan 10%
Model Testing Data Testing
EfficientNet-B0 x x
VGG-19 x x
VGG-16 x x
ResNet-152 X x
76
Pre-Trained Deep CNN CK+ Dengan 10% Data JAFFE Dengan 10%
Model Testing Data Testing
MobileNet-V2 x x
Inception-V2 x x
DenseNet-201 x x
3.6.3 Evaluasi Tahap Testing
Setelah evaluasi training dan validation selesai kemudian setiap model
akan dilakukan evaluasi dari testing untuk menguji Seberapa baik kinerja dari
setiap model Deep CNN. Dalam hal ini ini proses evaluasi tahap testing, peneliti
akan mengukur setiap prediksi dengan menggunakan tiga perhitungan
performance matric Precision, Receal dan F1-Score secara manual dari setiap data
testing dari gambar CK+ dan JAFFE yang diujikan terhadap setiap keluarga
model pre-trained Deep CNN. karena menggunakan F1-Score sangat baik untuk
datasets yang tidak seimbang seperti datasets CK+. Berikut ini adalag Tabel 3.11
evaluasi prediksi proses testing.
Tabel 3.11 Evaluasi Testing.
Predict Class
Matriks
Afraid Angry Disgusted Sad Happy Surprised Neutral
Afraid x x x x x x x
Angry x x x x x x x
Actual Class
Disgusted x x x x x x x
Sad x x x x x x x
Happy x x x x x x x
Surprised x x x x x x x
Neutral x x x x x x x
77
Untuk mengevaluasi performa dari setiap model klasifikasi pengenalan
ekspresi wajah yang sudah dibangun digunakan performance matric accuracy,
precision, recall, f1-score.
(𝑇𝑃 − 𝑇𝑁) (3.5)

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
(𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁)
𝑇𝑃 (3.6)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
(𝑇𝑃 + 𝐹𝑃)
𝑇𝑃 (3.7)
𝑅𝑒𝑐𝑎𝑙𝑙 =
(𝑇𝑃 + 𝐹𝑁)
2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 (3.8)

𝐹1 − 𝑆𝑐𝑜𝑟𝑒 =
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
𝑇𝑁 (3.9)
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
(𝑇𝑁 + 𝐹𝑃)
Accuracy (3.5) merupakan rasio prediksi benar (True Positive dan True
Negative). Dalam hal ini seberapa akurat setiap model pengenalan ekspresi wajah
dapat mengklasifikasi ekspresi dengan benar. Maka berapa rasio model
memprediksi ekspresi yang benar (positif dan negatif) dengan keseluruhan data
ekspresi wajah. Dengan kata lain accuracy merupakan kedekatan dengan nilai
prediksi ekspresi yang benar, dengan nilai aktual(sebenarnya). Dengan
menghitung nilai akurasi dapat menjawab pertanyaan “Berapa persen model
pengenalan ekspresi wajah yang dapat dalam memprediksi ekspresi yang benar
dan prediksi yang salah dari keseluruhan data ekspresi wajah?”.
Precision (3.6) merupakan persentase ketepatan dalam memprediksi
positif yang benar (True Positive) dibandingkan dengan hasil prediksi positif
secara keseluruhan. Dalam hal ini menggambarkan tingkat keakuratan model dari
ekspresi yang diminta dengan hasil prediksi ekspresi yang diberikan oleh model.
78
Model menghitung rasio prediksi benar positif dibandingkan dengan keseluruhan
hasil yang diprediksi positif. Dari semua kelas ekspresi positif yang telah
diprediksi dengan benar, berapa banyak kelas ekspresi yang benar-benar positif.
Dengan menghitung nilai precision dapat menjawab “Berapa persen ekspresi yang
benar diprediksi dari keseluruhan ekspresi yang benar?”
Untuk recall (3.7) atau sensitivity menggambarkan keberhasilan model
dalam menemukan kembali sebuah informasi. Dalam hal ini recall merupakan
rasio prediksi benar positif dibandingkan dengan keseluruhan data yang benar
positif. Dengan menghitung nilai recall dapat menjawab pertanyaan “Berapa
persen ekspresi yang diprediksi benar dibandingkan dengan keseluruhan ekspresi
yang sebenarnya?”
F1-Score (3.8) merupakan bobot rata-rata dari precision dan recall. F-1
Score atau bisa disebut juga dengan F-1 Measurement adalah metrics yang
menggambarkan perbandingan rata-rata precision dan recall yang harmonic.

BAB IV HASIL DAN PEMBAHASAN
4.1 Hasil Implementasi
Sesuai dengan metodologi penelitian pada bab tiga, implementasi dalam
penelitian ada dua tahap dengan melakukan beberapa eksperimen, yaitu
eksperimen ketika proses pelatihan ulang dari setiap model, dan eksperimen
ketika proses testing model. Hasil eksperimen dari setiap model kemudian
dibandingkan akurasinya dalam mengenali datasets CK+ dan JAFFE. Evaluasi
pertama akan disajikan hasil akurasi dengan ukuran input gambar mulai dari 48 ×
48 sampai 360 × 360 untuk diuji menggunakan model standar CNN. Evaluasi
kedua membandingkan akurasi ketika proses transfer learning pada dua tahap
yaitu feature extraction dan fine-tuning dengan menggunakan EfficientNet-B0.
Evaluasi ketiga adalah membandingakan hasil akurasi dari setiap delapan model
EfficientNet ketika diuji menggunakan CK+ dan JAFFE berbasis transfer
learning. Kemudian dilanjutkan mengenai pembahasan detail mengenai hasil
implementasi penelitian, kemudian dilanjutkan dengan pembahasan
hyperparameter tunning dan hasil testing dari CK+ dan JAFFE berdasarkan
pengukuran akurasi, precision, recall, dan F1-Score. Kemudian, dilanjutkan
dengan pembahasan akurasi model secara keseluruhan.
4.1.1 Hasil Pengujian Model Standar CNN
Setelah melakukan preprocessing datasets CK+ dan JAFFE, kemudian
Langkah selanjutnya adalah pengujian model sequential atau standar CNN. Dalam
pengujian akan menggunakan hyperparameter pada model. Agar mendapatkan
akurasi training dan akurasi validasi terbaik ketika model sudah mencapai akurasi
79
80
terbaik digunakan fungsi early stopping ini berguna untuk ketika proses pelatihan
berlangsung jika model telah mencapai akurasi di atas 99% maka proses fitting
akan secara otomatis berhenti dalam epoch tertentu. Dalam hal ini model akan
diuji menggunakan ukuran input gambar yang berbeda mulai dari 48 × 48 sampai
360 × 360 dengan hyperparameter yang sama untuk setiap model dalam
memperoses gambar. Dari pembahasan tersebut spesifikasi hyperparameter
sebagai berikut:
Learning Rate: 0.0001
Optimizer: Adam
Batch Size: 32
Epoch: 50 (validation accuracy > 99% makan proses pelatihan berhenti)
Menggunakan nilai learning rate yang telah disebutkan di atas dan
optimizer Adam karena karena pengujian dalam penelitian yang dilakukan
sebelumnya oleh (Akhand et al., 2021) menggunakan hyperparameter yang sama
berdasarkan inisialisasi dalam pengujian model penelitian tesis ini. Untuk ukuran
batchsize menggunakan nilai default 32 karena dapat berpengaruh terhadap
kinerja setiap model dalam melakukan proses pelatihan. Selain itu jumlah iterasi
tergantung dari berapa kali model melakukan proses fitting sehingga model
mencapai akurasi training dan validation di atas akurasi yang telah ditentukan
ambang batasnya dalam hal ini proses iterasi akan berhenti ketika model telah
mencapai akurasi pelatihan di atas 99%.
Dalam hasil eksperimen dengan input gambar yang berbeda dari dua
datasets CK+ dan JAFFE memiliki akurasi yang berbeda diuji dengan standar
81
model standar CNN. Yang mana ukuran asli dari datasets CK+ adalah mempunyai
resolusi 48×48 piksel sementara ukuran asli dari JAFFE adalah 256×256 piksel.
Ketika akan masuk model gambar akan dilakukan scaling dari dari 48 × 48
sampai 360 × 360 menggunakan Imagedata Generator. Kemudian di proses oleh
Model standar CNN dengan 3-layer konvolusi. Gambar 4.1 dapat dilihat detai
arsitektur standar CNN Sequential.
Secara teori dengan resolusi gambar yang lebih tinggi model akan banyak
mendapatkan informasi, sehingga akurasi akan lebih tinggi karena model
menerima informasi dari gambar semakin lembut, sehingga perbedaan antar kelas
dari tujuh ekspresi wajah dapat terlihat secara jelas. Sementara dengan ukuran
gambar dengan dimensi resolusi yang lebih kecil akurasi cenderung turun karena
model akan mengenali pola semakin bias, sehingga model dalam mempelajari
suatu data lebih sedikit artinya informasi dari gambar yang mempunyai resolusi
kecil akurasi model cenderung turun. Tetapi dengan ukuran input gambar besar
membutuhkan daya komputasi yang tinggi karena mesin melakukan pekerjaan
lebih banyak dan kompleks. Dalam Tabel 4.1 disajikan Perbandingan akurasi
testing dari model standar CNN dalam mengenali kedua datasets CK+ dan
JAFFE. Ada perbedaan terkait dengan efek perbedaan resolusi gambar dengan
hasil kinerja model yang diperoleh. Pada awalnya secara orisinal ukuran dari
gambar CK+ dan JAFFE masing-masing 254×254 dan 256×256 piksel. Jika
ukuran gambar semakin mendekati ukuran asli maka akurasi model cenderung
meningkat karena pola yang dihasilkan gambar input semakin jelas/lembut. Jika
ukuran asli dilakukan resize lebih besar maka gambar akan semakin buram/blur
82
tapi jika ukuran gambar dilakukan resize menjadi lebih kecil informasi dari setiap
piksel dari diambil oleh model akan semakin sedikit.
Tabel 4.1 Perbandingan Akurasi Testing Model Standar CNN Menggunakan

CK+ dan JAFFE.
Resolusi Ukuran Gambar CK+ JAFFE
360 × 360 95.31% 95.01%
224 × 224 98.22% 100.0%
128 × 128 95.00% 95.45%
64 × 64 93.66% 91.00%
48 × 48 92.19% 88.88%
Dalam Tabel 4.1 terlihat bahwa JAFFE memiliki akurasi testing tertinggi
dengan akurasi 100% untuk resolusi dengan ukuran gambar 224×224 Piksel
karena ukuran asli dari JAFFE adalah 256× 265 piksel sehingga perubahan akan
sangat sedikit ketika menurunkan ke dalam resolusi 224×224 piksel. Sementara
itu dengan ukuran resolusi 48×48 piksel akan masuk pada arsitektur sequential
akurasi menjadi 88.88% ini dikarenakan semakin kecil resolusi gambar maka
model akan sedikit dalam mempelajari informasi dari suatu pola dari gambar.
Untuk CK+ mempunyai akurasi testing 98.22% dengan resolusi gambar 224×224,
sementara akurasi testing terendah dari CK+ diperoleh dengan resolusi gambar
48×48 Piksel, dengan resolusi asli dari CK+ adalah 48×48 piksel. Dalam hal ini
dapat diartikan bahwasanya semakin kecil resolusi gambar maka model akan
mempelajari pola dari suatu gambar akan lebih banyak biasnya. Jika resolusi
gambar semakin besar maka model akan belajar dari suatu pola semakin lembut
dan jelas artinya lebih banyak informasi untuk gambar yang memiliki resolusi
83
lebih tinggi. Sehingga model yang mempelajari gambar yang memiliki resolusi
lebih tinggi memiliki akurasi cenderung tinggi. Berikut ini adalah Gambar 4.1
sampai Gambar 4.5 grafik dari akurasi training dan loss dari input gambar yang
berbeda mulai dari resolusi gambar 360×360 sampai 48×48 khususnya untuk
dataset CK+.
Gambar 4.2 Akurasi Training dan Loss CK+ 360×360 Piksel.
Gambar 4.1 Akurasi Training dan Loss CK+ 224×224.

84
Gambar 4. 4 Akurasi Training dan Loss CK+ 48×48.

Dalam hal ini kemudian disajikan gambar 4.6 sampai 4.9 merupakan
grafik akurasi training dan loss dari datasets JAFFE diuji menggunakan resolusi
gambar yang berbeda dari ukuran 360×360 sampai 48×48 dalam model CNN
standar atau model Sequential.
Gambar 4.6 Akurasi Training dan Loss JAFFE 360×360.

85

86

Dalam hal ini ketika model melakukan proses pelatihan dengan beberapa
nilai iterasi tertentu grafik dalam visualisasi terlihat garis kadang naik, kemudian
kadang turun kemudian melandai sehingga grafik terlihat seperti terjadi osilasi,
karena berikut ini merupakan proses update bobot atau weight secara terus
menerus sampai kinerja model mencapai optimal. Yang mana model berusaha
agar apa yang dipelajari sesuai dengan kelas ekspresi wajah. Apa artinya menaik?
Jika naik berarti model berhasil melakukan perbaikan kinerja artinya nilai bobot
mendekati nilai pola dari data setiap kelas ekspresi wajah. Apa artinya menurun?
Ketika grafik terlihat menurun maka model mengalami pengurangan nilai bobot
artinya kinerja model mengalami sedikit penurunan karena sedang mengalami
kesulitan dalam mengenali pola tertentu dari data training.
Selanjutnya mengapa terjadi naik turun atau osilasi? Karena proses
memperbaharui bobot dalam proses training yang sedang berlangsung
menunjukkan kemampuan kinerja model dalam mengenali setiap ekspresi pada
setiap kelas yang berbeda. Dari setiap kelas ekspresi, kekuatan akurasi mesin
dalam mengenali setiap pola mempunyai bobot yang berbeda-beda. Kadang kelas
ekspresi tertentu pola yang dipelajari oleh mesin relatif mudah sehingga bobot
mudah dipelajari sehingga menampilkan grafik yang naik begitu juga sebaliknya
87
ketika grafik mengalami penurunan, proses ini terus berlanjut sampai model telah
mencapai akurasi terbaik atau model telah mencapai konvergen.
4.1.2 Hasil Pengujian Model Berbasis Transfer Learning
Setelah melakukan preprocessing dataset CK+ dan JAFFE, akan
dilakukan pengujian ketujuh model atau Deep Convolutional Neural Network ,
yaitu EfficientNet-B0, VGG19, VGG-16, MobileNet-V2, ResNet-152, Inception-
V3 dan DenseNet-201. Dalam tahapan pengujian akan menggunakan
hyperparamter pada model. Agar mendapatkan hasil akurasi training dan
validation terbaik menggunakan early stopping dengan ini ketika model telah
mencapai akurasi terbaik atau yang diharapkan, model akan secara otomatis
berhenti dalam melakukan pelatihan di beberapa iterasi tertentu, Spesifikasi pada
hyper parameter yang dijalankan akan mendapatkan hasil akurasi training dan
validation sama pada setiap model arsitektur pre-trained. Dari pembahasan di atas
spesifikasi hyper parameter sebagai berikut:
Learning rate: 0.0001 Feature Extraction dan 0.00001 Fine-Tuning
Optimizer: Adam
Batch Size: 32
Epoch: 50 Feature Extraction + 50 Fine-Tuning
Tabel 4.2 menyajikan dua tahap teknik tranfer leaning yang berbeda
pertama 50 epoch untuk feature extraction kemudian 50 epoch fine-tuning dalam
hal ini yang digunakan secara random dari datasets CK+ dan JAFFE.
88

Training yang Berbeda dalam Transfer Learning.
Training Mode CK+ JAFFE
Feature Extraction Mode 79.69% 47.62%
Fine-Tuning Mode 99.30 85.71%
Dalam hasil pengujian ini peneliti membandingkan dua mode pelatihan di
mana membandingkan antara model feature extraction dengan model fine-tuning.
Dalam hal ini, dataset CK+ dan JAFFE telah melalui proses augmentasi data
sebelum masuk ke setiap dua model. Pertama, peneliti melakukannya di
EfficientNetB0 sebagai model dasar, kemudian mengatur model dasar dan
membekukan lapisannya dasar sebagai feature extraction. Kemudian Atur
arsitektur model dengan lapisan atas dari EfficientNet sehingga dapat dilatih.
Parameter tuning yang diberikan pada pelatihan ini menggunakan fungsi loss
categorical crossentropy dan optimizer menggunakan fungsi Adam dengan nilai
learning rate masing-masing 0,0001 sehingga model dalam mengupdate bobot
lebih lembut dan model mendapatkan informasi yang lebih banyak. Model dengan
tingkat learning rate yang lebih rendah adalah solusi terbaik untuk saat
melakukan fine-tuning pada pelatihan berikutnya. Kedua, untuk menerapkan fine-
tuning model, penelusur ulang melakukan Unfreeze semua layer dalam model
dasar, kemudian melanjutkan ke refreeze setiap layer kecuali 5 layer terakhir dari
EfficientNet-B0. Di mana setiap mode pelatihan untuk setiap model menggunakan
50 epoch untuk model feature extraction dan kemudian 50 epoch untuk model
fine-tuning ketika akan melakukan pelatihan ulang nilai learning rate akan
diinisialisasi 0,00001.
89
Untuk menemukan model yang cocok dan terbaik, peneliti bereksperimen
dengan menggunakan arsitektur Deep Convolutional Neural Network khususnya
(EfficientNet-B0, VGG-19, VGG-16, MobileNet-V2, ResNet-152, Inception-V3,
dan DenseNet-201). Eksperimen dilakukan untuk 10% dari data yang dipilih
secara acak sebagai validation data kemudian 80% sebagai training data, dan
10% untuk testing model. Untuk setiap masing-masing peneliti menerapkan hal
yang sama pada datasets CK+ dan JAFFE dalam hal splitting data. Dalam tabel
4.3 disajikan bahwasaanya perbandingan akurasi testing dari 10% data CK+ dan
JAFFE untuk pengujian tujuh model pre-trained yang berbeda dari hasil pelatihan
menggunakan transfer learning.
Tabel 4.3 Perbandingan akurasi testing dengan tujuh model Deep Convolutional
Neural Network pada CK+ dan JAFFE.
Pre-Trained CK+ in JAFFE in

EfficientNet Selected 10% Selected 10%
Model Test Sample Test Sample
EfficientNet-B0 99.30% 85.00%
VGG-19 98.43% 100.0%
VGG-16 97.65% 100.0%
MobileNet-V2 70.62% 95.45%
ResNet-152 84.37% 77.27%
Inception-V3 55.68% 86.36%
DenseNet-201 64.06% 67.44%
EfficientNet-B0 merupakan arsitektur CNN pre-trained model yang mana
model dasar EfficientNet-B0 dibangun menggunakan konvolusi bottleneck
terbalik (MBConv) yang mirip dengan MobileNetV2 dan MnasNet. Karena

90
jumlah parameter untuk komputasi sangat kecil, EfficientNet dapat digunakan
dengan sangat baik untuk pemrosesan cepat dalam aplikasi mobile dan ketika
melakukan pelatihan ulang EfficientNet cenderung cepat dari arsitektur yang lain.
Dalam Tabel 4.3 EfficientNet memiliki kinerja sangat bagus dalam mengenali
pola CK+ sementara untuk mengenali JAFFE EfficientNet akurasi model
cenderung turun karena tidak semua arsitektur Deep CNN cocok untuk dataset
tertentu. Di mana EfficientNet-B0 memiliki performa 99.30% dalam hal testing
sementara untuk pengujian JAFFE memiliki akurasi testing 85% yang mana
penguji menguji 10% dari setiap data yang bersangkutan untuk testing. Dari hasil
akurasi training dan validation EfficientNet-B0 memiliki perbedaan antara CK+
dan JAFFE. Dalam Gambar 4.11 kemudian 4.12 dapat dilihat akurasi training dan
validation kemudian hasil training loss dan validation loss dari masing-masing
CK+ dan JAFFE menggunakan model arsitektur EfficientNet.
Validation Loss CK+ menggunakan EfficientNet-B0.
91
Validation Loss JAFFE menggunakan EfficientNet-B0.
Selanjutnya adalah VGG-19 merupakan model yang dikembangkan oleh
Simonyan dan Zisserman. VGGNet dikembangkan oleh Visual Geometry Group
di Oxford University. Model ini menjuarai kontes ILSVRC sebagai 1st Runner-up
Image Classification. Arsitektur VGG-19 merupakan arsitektur yang terdiri dari
47-layer yang menggunakan konsep semakin banyak layer akurasi semakin baik.
Convolutional layer menggunakan filter 3 × 3 dengan jumlah dimensi bertambah
di setiap layer. Dimensi yang digunakan pada filter adalah 3, 64, 128, 256, dan
512. VGG-19 mempunyai jumlah parameter 138 juta parameter. Dalam gambar
4.13 kemudian 4.14 dapat dilihat akurasi training dan validation kemudian hasil
training loss dan validation loss dari masing-masing CK+ dan JAFFE
menggunakan model arsitektur VGG-19.

92
Validation Loss CK+ menggunakan VGG-19.
Validation Loss JAFFE menggunakan VGG-19.
Dalam eksperimen selanjutnya peneliti menggunakan VGG-16 yang mana
merupakan model yang dikembangkan oleh Simonyan dan Zisserman. Arsitektur
VGG-16 yang di dalamnya terdapat proses 5 blok konvolusi yang terdiri dari
operasi konvolusi 3x3 menggunakan 1 stride dengan jenis padding same/zero

93
padding lalu di aktivasi menggunakan relu. Kemudian setiap selesai operasi blok
konvolusional di reduksi menggunakan operasi maxpooling 2x2 dengan 2 stride
dan diakhiri dengan 2 dense layer sebanyak 4096 node/neuron. Dalam hal ini
Gambar 4.15 kemudian 4.16 dapat dilihat akurasi training dan validation
kemudian hasil training loss dan validation loss dari masing-masing CK+ dan
JAFFE menggunakan model arsitektur VGG-16.
Validation Loss CK+ menggunakan VGG-16.
Validation Loss JAFFE menggunakan VGG-16.
94
Selanjutnya penelitian ini juga menggunakan MobileNet untuk mengenali
CK+ dan JAFFE. MobileNet adalah arsitektur model yang dikembangkan oleh
tim google brain dengan menerapkan proses komputasi lebih efisien
MobileNetV1 memiliki Depthwise separable convolution merupakan blok pada
yang terdiri dari depthwise convolution dan pointwise convolution, kedua fitur
tersebut berguna untuk mengurangi komputasi sehingga hasil lebih menghemat
sumber daya. Sedangkan MobileNetV2 strukturnya sama dengan MobileNetV1
hanya saja versi ini menambahkan dua fitur terbaru yaitu linear bottleneck dan
shortcut connection di mana fitur tersebut berfungsi mempertahankan agar
informasi dari data tidak hilang pada saat diolah, sekaligus dapat mempercepat
proses setiap iterasi yang dijalankan. Dalam hal ini Gambar 4.17 kemudian 4.18
dapat dilihat akurasi training dan validation kemudian hasil training loss dan
validation loss dari masing-masing CK+ dan JAFFE menggunakan model
arsitektur MobileNet-V2.
Validation Loss CK+ menggunakan MobileNet-V2.
95
Validation Loss JAFFE menggunakan MobileNet-V2.
Dalam eksperimen selanjutnya peneliti menggunakan salah satu arsitektur
Deep CNN yaitu ResNet-152 yang mana merupakan model menggunakan konsep
skip connection untuk mengatasi vanishing gradient yang mana jika semakin
dalam jaringan maka nilai gradien menghilang. ResNet-152 artinya ada 152-layer
dalam ResNet-152. Jaringan residual network ini dikembangkan oleh Kaiming He
dan memiliki jumlah parameter 25 juta dan merupakan pemenang dari kompetisi
ImageNet tahun 2015. ResNet merupakan solusi dari neural network yang dalam,
semakin dalam pelatihan maka semakin rumit dan kedalaman sangat penting
untuk pelatihan agar parameter atau neuron dapat mengingat atau menyimpan
nilai pelatihan yang optimal. Berikut ini merupakan Gambar 4.19 kemudian 4.20
dapat dilihat akurasi training dan validation kemudian hasil training loss dan
validation loss dari masing-masing CK+ dan JAFFE menggunakan model
arsitektur ResNet-152.
96
Validation Loss CK+ menggunakan ResNet-152.
Validation Loss JAFFE menggunakan ResNet-152.
Kemudian dalam penelitian ini dilanjutkan eksperimen menggunakan
arsitektur Deep Convolutional Neural Network yaitu Inception-v3 dalam
mengenali pola CK+ dan JAFFE. Inception-V3 merupakan pengembangan dari
model GoogleNet atau Inception-v1 yang dikembangkan pada penelitian (Szegedy
et al., 2016). Inception-v3 terdiri dari 5 lapisan konvolusional dasar (stem) dengan
97
tipe valid padding yang terdiri dari conv2d_0 hingga conv2d_4 dimana setiap
operasi konvolusi diikuti oleh aktivasi ReLu dan BatchNormalization. Berikut ini
merupakan Gambar 4.21 kemudian 4.22 dapat dilihat akurasi training dan
validation kemudian hasil training loss dan validation loss dari masing-masing
CK+ dan JAFFE menggunakan model arsitektur Inception-V3.
Validation Loss CK+ menggunakan Inception-V3.
98
Validation Loss JAFFE menggunakan Inception-V3.
Penelitian selanjutnya menggunakan arsitektur Deep Convolutional
Neural Network bertipe DenseNet-201. DensNet adalah kepanjangan dari Dense
Convolutional Neural Network merupakan pengembangan dari jaringan residual.
Bedanya DenseNet mengambil nilai gradien dari setiap later untuk
dikalkulasikan dengan semua layer yang ada di lapisan atasnya jadi dalam segi
komputasi DenseNet jauh lebih berat dan dalam. DenseNet Memiliki beberapa
keuntungan yaitu: menghilangkan masalah gradien yang hilang, memperkuat
feature propagation, menggunakan penggunaan Kembali fitur dan secara
substansial mengurangi jumlah parameter. Berikut ini merupakan Gambar 4.23
kemudian 4.24 dapat dilihat akurasi training dan validation kemudian hasil
training loss dan validation loss dari masing-masing CK+ dan JAFFE
menggunakan model arsitektur DenseNet-201.

99
Validation Loss CK+ menggunakan DenseNet-201.
Validation Loss JAFFE menggunakan DenseNet-201.
100
4.2 Evaluasi
Dalam hal ini evaluasi penelitian pertama akan membandingkan hasil
testing dari setiap model standar Convolutional Neural Network (CNN) dari
ukuran input gambar yang berbeda untuk setiap datasets CK+ dan JAFFE. Setelah
itu membandingkan hasil testing dari setiap model Deep Convolutional Neural
Network dalam mengenali pola CK+ dan JAFFE dari tujuh arsitektur pre-trained
diantaranya EfficientNet-B0, VGG-19, VGG-16, MobileNet-V2, ResNet-152,
Inception-V3, DenseNet-201. Evaluasi akan disajikan berupa classfification
report dan confusion matrix. Klasifikasi ini terdiri dari recell, precision, dan F-1
score. Recall menunjukkan jumlah objek antara actual dan prediction secara
akurat, precision menunjukkan jumlah objek yang dipilih secara benar dan F-1
score menunjukan rata-rata dari recall dan precision (Abdurrohman et al., 2018).
Dalam penerapannya untuk pengenalan ekspresi wajah evaluasi dapat
membantu untuk mengenali emosi seseorang secara akurat. Sehingga dapat
menentukan tindakan terhadap seseorang terhadap emosi seseorang.
4.2.1 Hasil Evaluasi Model Standar CNN
Dalam evaluasi ini disajikan hasil confusion matrix dari hasil eksperimen
model menggunakan standar CNN dari ukuran input resolusi gambar yang
berbeda mulai dari 48×48 piksel hingga 360×360 piksel untuk setiap datasets
CK+ dan JAFFE. Berikut ini gambar 4.25 confusion matrix dari model untuk
input gambar yang berbeda dari CK+. Kemudian dilanjutkan gambar 4.26
confusion matrix dari model untuk input dengan resolusi gambar yang berbeda
dari datasest JAFFE.

101
Gambar 4.25 Hasil Confusion Matrix dari

48×48 piksel hingga 360×360 untuk CK+.
102
Pada gambar 4.25 merupakan hasil confusion matrix dari setiap input
gambar yang berbeda dari resolusi dari 48×48 sampai 360×360 untuk setiap
model yang berbeda. Dapat dilihat prediksi beserta aktual hasil akurasi testing
data. Selanjutnya berikut ini adalah rincianya yang diberikan label 0-6: 0 = Anger,
1 = disgust, 2 = fear, 3 = happy, 4 = neutral, 5 = sadness, 6 = surprise. Jika untuk
menentukan model pengenalan ekspresi wajah model dengan hasil pemrosesan
ukuran gambar 244×244 menghasilkan akurasi terbaik yaitu 98.22% .

103
JAFFE.
Pada Gambar 4.26 merupakan hasil confusion matrix dari setiap input
gambar yang berbeda dari resolusi dari 48×48 sampai 360×360 untuk setiap
model yang berbeda. Dapat dilihat prediksi beserta aktual hasil akurasi testing
data. Selanjutnya berikut ini adalah rincian yang diberikan label 0-6: 0 = Anger, 1
= disgust, 2 = fear, 3 = happy, 4 = neutral, 5 = sadness, 6 = surprise. Jika untuk
ukuran gambar 244×244 menghasilkan akurasi terbaik yaitu 100.0% khususnya
untuk datasets JAFFE.
Berikutnya adalah mengevaluasi di mana menjelaskan hasil classification
report yang akan melihat hasil dari masing-masing dari model dengan ukuran dari
resolusi 48×48 hingga 360×360 untuk setiap datasets CK+ dan JAFFE. Berikut
Tabel 4.4 menyajikan hasil classification report untuk melihat hasil dari
precision, recall, F1-Score beserta setiap dari akurasi model.

104
Tabel 4.4 Hasil Classification Report Standar CNN.
CK+ JAFFE
Model Precision Recall F-1 Accuracy Precision Recall F-1 Accuracy
Score Score
48×48 89% 88% 88% 92% 92% 88% 88% 88%
64×64 96% 90% 92% 95% 91% 91% 91% 91%
128×128 97% 89% 91% 95% 96% 97% 96% 95%
224×224 97% 93% 94% 97% 100% 100% 100% 100%
360×360 96% 88% 90% 94% 97% 96% 96% 95%
Pada Tabel 4.4 merupakan hasil classification report dari testing model di
mana menyajikan hasil dari akurasi model dari setiap input dari resolusi gambar
mulai 48×48 sampai 360×360. Di mana setiap model dalam tabel menunjukkan
perbandingan akurasi antara datasets CK+ dan JAFFE. Berdasarkan classification
report tersebut, model dengan ukuran input dengan resolusi gambar 224×224
cenderung memiliki akurasi terbaik untuk dua datasets CK+ maupun JAFFE. Dan
ketikan nilai input gambar resolusi semakin rendah akurasi turun mencapai rata-
rata 5%. Akurasi terendah dengan ukuran input resolusi gambar terkecil yaitu
48×48. Dengan nilai hasil akurasi tiap model di atas menggunakan inisialisasi
hyperparameter yang sama seperti menggunakan optimizer Adam, kemudian nilai
learning rate 0.0001. Pada Gambar 4.27 di visualisasikan nilai akurasi dari setiap
model menggunakan ukuran input yang berbeda dengan datasets CK+ dan
JAFFE. Kemudian Pada Gambar 4.28 di visualisasikan nilai performance matrix

105
F-1 Score dari setiap model menggunakan ukuran input yang berbeda dengan
datasets CK+ dan JAFFE.
Accuracy (%)
102.00%
100.00%
98.00%
96.00%
94.00%
92.00%
90.00%
88.00%
86.00%
84.00%
82.00%
360 × 360 224 × 224 128 × 128 64 × 64 48 × 48
CK+ JAFFE
Gambar 4.27 Hasil Akurasi Model.
F1-Score
102%
100%
98%
96%
94%
92%
90%
88%
86%
84%
82%
360 × 360 224 × 224 128 × 128 64 × 64 48 × 48
CK+ JAFFE
Gambar 4.28 Hasil Akurasi Model.

Dari Gambar 4.27 terdapat makna yang dapat diambil bahwasanya ukuran
gambar dengan ukuran input 224×224 cenderung mencapai akurasi tertinggi dari
ukuran input yang lainnya. Semakin kecil ukuran input gambar maka model akan
106
menghasilkan akurasi yang semakin menurun, karena semakin sedikit informasi
yang diperoleh oleh model dalam mengenali pola datasets. Dalam hal ini ukuran
dari sebuah arsitektur juga berpengaruh terhadap ukuran input 224×224 dalam
penelitian ini arsitektur disesuaikan dengan ukuran input tersebut. Selain itu
JAFFE cenderung menghasilkan akurasi terbaik karena JAFFE mempunyai data
varian yang lebih sedikit dari CK+ dan JAFFE mempunyai keseimbangan jumlah
gambar setiap kelasnya. Dalam hal ini pengukuran menggunakan perhitungan
performance matrics accuracy.
Dari Gambar 4.28 terdapat makna yang dapat diambil bahwasanya ukuran
gambar dengan ukuran input 224×224 cenderung mencapai akurasi tertinggi dari
ukuran input yang lainnya. Semakin kecil ukuran input gambar maka model akan
menghasilkan akurasi yang semakin menurun, karena semakin sedikit informasi
yang diperoleh oleh model dalam mengenali pola datasets. Dalam hal ini ukuran
dari sebuah arsitektur juga berpengaruh terhadap ukuran input 224×224 dalam
penelitian ini arsitektur disesuaikan dengan ukuran input tersebut. Selain itu
JAFFE cenderung menghasilkan akurasi terbaik karena JAFFE mempunyai data
varian yang lebih sedikit dari CK+ dan JAFFE mempunyai keseimbangan jumlah
gambar setiap kelasnya. Dalam hal ini pengukuran menggunakan perhitungan
performance matrics F1-Score.

107
4.2.2 Hasil Evaluasi Model Berbasis Transfer Learning
Evaluasi dalam penelitian ini akan membandingkan hasil testing dari
ketujuh model arsitektur pre-trained Deep Convolutional Neural Network dalam
mengenali pola dari datasest CK+ dan JAFFE. Yang mana akan disajikan berupa
classification report dan confusion matrix. Klasifikasi model khususnya pre-
trained ini akan disajikan dalam bentuk performance matrix berupa recall,
precision, dan F-1 Score. Recall menunjukkan jumlah objek antara actual dan
prediction secara akurat, precision menunjukkan jumlah objek yang dipilih secara
benar dan F-1 score menunjukkan rata-rata dari recall dan precision
(Abdurrohman et al., 2018). Dalam penerapannya untuk pengenalan ekspresi
wajah, evaluasi ini dapat membantu mengidentifikasi akurasi dari setiap tujuh
jenis ekspresi wajah sehingga dapat mengenali emosi seseorang dengan akurat.
Dalam evaluasi ini disajikan hasil confusion matrix dari hasil eksperimen model
menggunakan tujuh model pre-trained untuk setiap datasets CK+ dan JAFFE.
Berikut ini Gambar 4.29 confusion matrix dari model untuk model pre-trained
yang berbeda dari CK+. Kemudian dilanjutkan Gambar 4.30 confusion matrix dari
model pre-trained yang berbeda dari dastest JAFFE.

108
EfficientNet-B0 VGG-19
VGG-16 MobileNet-V2
Inception-V3 ResNet-152
109
Gambar 4.29 Hasil Confusion Matrix model pre-trained CK+

DenseNet-201.
Pada Gambar 4.29 merupakan hasil confusion matrix dari setiap tujuh
model pre-trained yang berbeda dari EfficientNet-B0, VGG-19, VGG-16,
MobileNet-V2, inception-V3, ResNet-152, dan DenseNet khususnya dalam
mengenali data CK+. Dapat dilihat prediksi beserta aktual hasil akurasi testing
data. Selanjutnya berikut ini adalah rincian yang diberikan label 0-6: 0 = Anger, 1
= disgust, 2 = fear, 3 = happy, 4 = neutral, 5 = sadness, 6 = surprise. Jika untuk
menggunakan arsitektur model EfficientNet-B0 menghasilkan akurasi terbaik
yaitu 99.30% .
110
VGG-19
EfficientNet-B0
VGG-16 MobileNet-V2
Inception-V3 ResNet-152
111
DenseNet-201
Gambar 4.30 Hasil Confusion Matrix model pre-

trained JAFFE.
Pada Gambar 4.30 merupakan hasil confusion matrix dari setiap tujuh
model dari arsitektur pre-trained yang berbeda, dengan setiap model yang
berbeda dengan input 224×224 ketika akan masuk pada arsitektur. Dapat dilihat
prediksi beserta aktual hasil akurasi testing data. Selanjutnya berikut ini adalah
rincian yang diberikan label 0-6: 0 = surprise, 1 = disgust, 2 = fear, 3 = happy, 4 =
sadness, 5 = neutral, 6 = angry. Jika untuk menentukan model pengenalan
ekspresi wajah model dengan hasil pemrosesan menghasilkan akurasi terbaik
yaitu 100.0% khususnya untuk datasets JAFFE menggunakan arsitektur VGG-16
dan VGG-19.
Berikutnya adalah mengevaluasi di mana menjelaskan hasil classification
report yang akan melihat hasil dari masing-masing dari model dengan tujuh
model arsitektur pre-trained berbeda untuk setiap datasets CK+ dan JAFFE.
112
Berikut tabel 4.5 menyajikan hasil classification report untuk melihat hasil dari
precision, recall, F1-Score beserta setiap dari akurasi model.
Tabel 4.5 Hasil Classification Report Pre-Trained Model.
CK+ JAFFE
Score Score
EfficientNet- 0.99 0.99 0.99 0.99 0.85 0.81 0.81 0.85
B0 (Tan &
Le, 2019)
VGG-19 0.97 0.99 0.98 0.98 1.00 1.00 1.00 1.00
(Mahendran
& Vedaldi,
2016)
VGG-16 0.96 0.98 0.97 0.98 1.00 1.00 1.00 1.00
(Simonyan &
Zisserman,
2015)
MobileNet- 0.56 0.50 0.48 0.66 0.98 0.96 0.97 0.95
V2 (Sandler
et al., 2018)
ResNet-152 0.82 0.74 0.75 0.84 0.82 0.79 0.75 0.77
(He et al.,
2016)
113
CK+ JAFFE
Score Score
Inception-V3 0.34 0.39 0.35 0.55 0.87 0.87 0.85 0.86
(Szegedy et
al., 2016)
DenseNet- 0.49 0.48 0.46 0.64 0.76 0.66 0.68 0.77
201 (Huang
et al., 2018)
Tabel 4.5 merupakan hasil classification report dari testing model yang
berisi hasi akurasi dari tujuh model pre-trained Deep Convolutional Neural
Network. Di mana setiap model dalam tabel menunjukkan perbandingan akurasi
antara datasets CK+ dan JAFFE. Berdasarkan classification report tersebut,
model yang menggunakan Arsitektur EfficientNet-B0 cenderung memiliki akurasi
terbaik yaitu 99.30% untuk datasets CK+, selain itu dengan menggunakan
EfficientNet proses fitting cenderung lebih cepat karena EfficientNet-B0 memiliki
parameter yang lebih sedikit. Dalam hal ini untuk VGG-19 dan VGG-16
Memiliki akurasi testing 100% dalam mengenali pola JAFFE, selain itu model
VGG-19 dalam proses fitting membutuhkan waktu yang lebih lama kerena VGG
arsiektur mempunyai parameter yang lebih banyak. Tetapi ketika EfficientNet-B0
mengenali pola JAFFE akurasi berkurang 15%, itu berarti setiap model pre-
trained belum tentu cocok digunakan untuk mengenali pola datasets yang
berbeda. Selain itu ketika menggunakan VGG-19 dan VGG-16 akurasi testing
114
untuk mengenali pola CK+ berkurang 2%. Dalam hal ini dengan inisialisasi
hyperparameter yang sama dan metode yang sama yaitu teknik tranfer learning
tujuh model pre-trained Deep CNN.
Pada Gambar 4.31 berisi visualisasi nilai akurasi dari setiap model yang
menggunakan tujuh model Deep CNN berbeda dengan datasets CK+ dan JAFFE.
Kemudian Pada Gambar 4.33 berisi visalisasi nilai performance matrix F-1 Score
dari setiap model yang menggunakan tujuh arsitektur pre-trained yang berbeda
dengan datasets CK+ dan JAFFE.
Accuracy(%)
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
CK+ in Selected 10% Test Sample JAFFE in Selected 10% Test Sample
Gambar 4.31 Hasil Akurasi Model Pre-Trained Deep CNN.

115
F-1 Score
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
CK+ in Selected 10% Test Sample JAFFE in Selected 10% Test Sample
Gambar 4.32 Hasil F-1 Score Model Pre-Trained Deep CNN.
4.3 Evaluasi Testing
Dalam menguji kinerja pengujian ini, peneliti menggunakan F1-Score
sebagai Persamaan. Pengukuran performance metric karena baik untuk mengukur
dataset yang tidak seimbang dimana jumlah setiap Class tidak seimbang. Tabel
4.6 menunjukkan klasifikasi hasil pelatihan yang dilakukan oleh model
EfficientNet-B0 pada 132 gambar uji dari kumpulan data CK+. di mana model
memprediksi citra kesedihan salah diklasifikasikan sebagai jijik, dan kejutan salah
diklasifikasikan sebagai kesedihan.

116
Tabel 4.6 Menampilkan klasifikasi F1-Score dari setiap kelas ekspresi dalam set
data CK+.
True Label
Expression AN CO DI AF HA NE SA SU
Anger (AN) 13 0 0 0 0 0 0 0
Contempt 0 5 0 0 0 0 0 0
(CO)
Disgust (DI) 0 0 17 0 0 0 1 0
Fear 0 0 0 8 0 0 0 0
(AF)
Happy (HA) 0 0 0 0 21 0 0 0
Neutral (NE) 0 0 0 0 0 33 0 0
Sadness 0 0 0 0 0 0 10 1
(SA)
Surprise (SU) 0 0 0 0 0 0 0 24
Tabel 4.7 Menampilkan gambar yang salah diklasifikasikan dari set data CK+.
Misclassified Image: True Class →
Predicted Class
Samp
les
From
CK+
Sadness Surprise
Disgust Sadness
Tabel 4.7 menunjukkan hanya dua gambar yang salah diklasifikasikan
oleh salah satu model EfficientNet-B0 dan keandalan model dalam membuat
prediksi yang dibangun dengan pendekatan pembelajaran transfer yang diusulkan
oleh peneliti. Gambar pertama termasuk dalam label jenis ekspresi, tetapi model
memprediksi sebagai ekspresi jijik. Dalam hal ini, model kesulitan dalam
membedakan gambar kesedihan hampir seperti ekspresi jijik khusus untuk
ekspresi wajah orang yang disajikan pada tabel 5 ini, tetapi secara visual ekspresi
117
kesedihan dan jijik memiliki hampir kesamaan seperti alis berkerut. ke bawah atau
kadang ke atas dan bibir cenderung mengecil, gigi tertutup, dan kulit wajah
tampak berkerut. Gambar kedua termasuk dalam label jenis ekspresi terkejut,
tetapi model prediksi termasuk dalam ekspresi kesedihan. Mengapa hal ini bisa
terjadi karena khusus untuk wajah seseorang pada gambar kedua ini, ketika
terkejut model memprediksi terlihat sedih karena alisnya seolah mengekspresikan
kesedihan, namun secara visual ekspresi terkejut dan sedih memiliki sedikit
perbedaan yang hanya terletak pada keadaannya. alis cenderung ke atas melebar
dan kulit keriput ke atas.
Pada analisis Tabel 4.7 dapat disimpulkan bahwa keadaan ekspresi setiap
orang cenderung berbeda dan dipengaruhi oleh warna kulit, tingkat usia, dan suku
tertentu. Pada tipikal lainnya, ketika dua orang memiliki ekspresi yang sama,
belum tentu kedua orang tersebut memiliki ekspresi yang terlihat sama secara
visual karena setiap orang memiliki karakter yang unik dalam setiap ekspresi
mereka, meskipun sebagian besar dari setiap ekspresi dapat diklasifikasikan.
Dalam kasus tertentu, misalnya, secara visual mengekspresikan ketakutan tetapi
model memprediksi orang tersebut terkejut, dan manusia juga mengalami
kesulitan dalam memprediksi ekspresi semua orang.
4.4 Evaluasi Perbandingan dengan Metode sebelumnya
Pada bagian ini peneliti membandingkan kinerja metode pengenalan
ekspresi wajah yang telah diusulkan dengan metode yang ada dengan penelitian
sebelumnya khususnya pada datasets CK+ dan JAFFE. Dalam hal ini pada
pembagian datasets untuk data training, data validation dan data testing juga
disajikan dalam Tabel 4.6 untuk setiap model start-of-the-art. Khususnya dalam
118
hal ini analisis khususnya untuk menggunakan metode deep learning. Sebagian
besar metode yang ada menggunakan datasets JAFFE berukuran relatif kecil
dengan hanya 213 sampel dengan tujuh kelas ekspresi wajah yang relatif
mempunyai kelas seimbang. Selain itu datasets CK+ mempunyai jumlah sampel
yang lebih banyak dengan 1256 gambar ekspresi wajah dalam tujuh kelas. Tetapi
CK+ relatif memiliki jumlah data yang tidak seimbang pada tiap kelasnya. Teknik
pembagian datasets untuk memisahkan pelatihan, validasi dan sampel uji
digunakan dalam penelitian ini dan tercantum pada Tabel 4.8 dengan CK+ dan
JAFFE. Setelah itu masing-masing metode dengan teknik yang digunakan dalam
pemilihan ekstraksi fitur dan klasifikasi fitur disajikan dalam tabel untuk
membantu memahami kemahiran kinerja teknik transfer learning.
Tabel 4.8 Perbandingan akurasi metode yang diusulkan dengan Penelitian

sebelumnya pada datasets CK+ dan JAFFE.
Akurasi
(Penulis., Total Datasets: Training Testing Metode Untuk Esktrasi fitur dan
Tahun) Set dan Testing Set Klasifikasi Fitur
CK+ JAFFE
Hibrid arsitektur deep learning
(Jain et al., 2018) 213: 80%+20% - 94.91%
menggunakan CNN dan RNN
Meningkatkan Citra, Peningkatan
(Bendjillali et al., citra, ekstraks(Jain et al., 2018)i
213: 80%+20% - 98.63%
2019) fitur dan klasifikasi menggunakan
CNN
(Moravčík & Tipe VGG untuk ekstraksi fitur dan
Basterrech, 2021)
981: 80%+10%+10% 95.00% -
klasifikasi dengan Neural Network
981: 10-fold cross Berbasis Convolutional Neural
(Xu et al., 2020) 98.99% -
validation testing Network dan Edge Computing
Teknik yang Transfer leaning pada pre-trained
diusulkan EfficientNet-B0 model
1256: 80%+10%+10% 99.30% -
Menggunakan Menerapkan Pendekatan fine-
EfficientNet-B0 tuning
Teknik yang Transfer leaning pada pre-trained
diusulkan 213:80%+10%+10% - 100.0% VGG-19 model Menerapkan
Menggunaakn Pendekatan fine-tuning
119
Akurasi
(Penulis., Total Datasets: Training Testing Metode Untuk Esktrasi fitur dan
Tahun) Set dan Testing Set Klasifikasi Fitur
CK+ JAFFE
VGG-19
BAB V SIMPULAN DAN SARAN
5.1 Simpulan
Dalam penelitian ini model pengenalan ekspresi wajah menggunakan
arsitektur model EfficientNet-B0 dengan menggunakan teknik transfer learning
dengan strategi fine-tuning diusulkan. Dalam hasil eksperimen, menggunakan
tujuh arsitektur Deep Convolutional Neural Network (CNN) pre-trained yang
berbeda pada kedua datasets ekspresi wajah CK+ dan JAFFE dengan tampilan
profil frontal dan ukuran input gambar 224×224, metode yang diusulkan
menunjukkan akurasi pengenalan ekspresi yang sangat tinggi khususnya model
EfficientNet-B0 menghasilkan akurasi testing 99.30% pada datasets CK+.
Selanjutnya VGG-19 menghasilkan akurasi testing 100.0% pada datasets JAFFE.
Pada penelitian pengenalan ekspresi wajah, akurasi merupakan penilaian yang
utama dalam menentukan emosi dari ekspresi seseorang yang tepat, kemudian f-1
score juga digunakan untuk menentukan performance matrix jenis ekspresi antara
data predict dan actual khusus untuk datasets CK+ yang tidak seimbang.
Dalam hal ukuran resolusi gambar untuk input dengan ukuran 224×224
relatif mempunyai akurasi yang tinggi dengan menggunakan model CNN standar.
Untuk CK+ dengan ukuran input 224×224 model CNN standar akurasi testing
mencapai 98.22%. Ketika menggunakan JAFFE dengan ukuran 224×224 akurasi
testing 100.0%. Semakin kecil ukuran input gambar maka akurasi testing
cenderung menurun dari 224×224 ke 48×48 piksel. Karena semakin kecil resolusi
gambar model dalam mengenali pola saat pelatihan semakin cenderung bias.
120
121
5.2 Saran
Dalam penelitian ini mempunyai kekurangan bahwasanya model hanya
belajar dari gambar ekspresi wajah dengan tampilan dari depan saja, sehingga
model akan bias ketika data testing merupakan gambar profil wajah yang terlihat
dari samping. Penelitian selanjutnya diharapkan model dapat memprediksi secara
akurat ekspresi wajah seseorang dengan tampilan profil atau wajah dari sudut
pandang yang berbeda-berbeda. Selain itu, penelitian selanjutnya terkait dengan
model pengenalan ekspresi wajah dapat diperluas ke pengenalan emosi dari
ucapan atau gerakan tubuh untuk mencakup aplikasi industri yang akan muncul
kedepannya.
DAFTAR PUSTAKA
Abdurrohman, H., Dini, R., & Muharram, A. P. (2018). Evaluasi Performa
metode Deep Learning untuk Klasifikasi Citra Lesi Kulit The
HAM10000. In Seminar Nasional Instrumentasi, Kontrol dan Otomasi
(SNIKO).
Akhand, M. A. H., Roy, S., Siddique, N., Kamal, M. A. S., & Shimamura, T.
(2021). Facial emotion recognition using transfer learning in the deep
CNN. Electronics (Switzerland), 10(9), 1–19.
https://doi.org/10.3390/electronics10091036
Atabansi, C. C., Chen, T., Cao, R., & Xu, X. (2021). Transfer Learning
Technique with VGG-16 for Near-Infrared Facial Expression
Recognition. Journal of Physics: Conference Series, 1873(1).
https://doi.org/10.1088/1742-6596/1873/1/012033
Bendjillali, R. I., Beladgham, M., & Merit, K. (2019). Improved Facial
Expression Recognition Based on DWT Feature for Deep CNN.
https://doi.org/10.3390/electronics8030324
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for
Image Recognition. 2016 IEEE Conference on Computer Vision and
Pattern Recognition Deep. https://doi.org/10.1109/CVPR.2016.90
Huang, G., Liu, Z., Maaten, L. van der, & Weinberger, K. Q. (2018). Densely
Connected Convolutional Networks. July, 1–9.
https://doi.org/10.1109/CVPR.2017.243
Hung, J. C., Lin, K. C., & Lai, N. X. (2019). Recognizing learning emotion
based on convolutional neural networks and transfer learning. Applied
Soft Computing Journal, 84, 105724.
https://doi.org/10.1016/j.asoc.2019.105724
Indolia, S., Goswami, A. K., Mishra, S. P., & Asopa, P. (2018). Conceptual
Understanding of Convolutional Neural Network- A Deep Learning
Approach. Procedia Computer Science, 132, 679–688.
https://doi.org/10.1016/j.procs.2018.05.069
Izard, C. E., Woodburn, E. M., Finlon, K. J., Krauthamer-ewing, E. S.,
Grossman, S. R., Woodburn, E. M., Finlon, K. J., Krauthamer-ewing, E.
S., & Grossman, S. R. (2011). Emotion Review. International Society
for Research on Emotion, 3, No. 1 (, 44–52.
https://doi.org/10.1177/1754073910380972
Jain, N., Kumar, S., Kumar, A., Shamsolmoali, P., & Zareapoor, M. (2018).
Hybrid deep neural networks for face emotion recognition. Pattern
Recognit. Pattern Recognition Letters.
https://doi.org/10.1016/j.patrec.2018.04.010
122
123
Karphaty, A. (n.d.). Convolutional Neural Networks for Visual Recognition.

Khan, A., Sohail, A., Zahoora, U., & Saeed, A. (2020). A survey of the
recent architectures of deep convolutional neural networks. In Artificial
Intelligence Review (Vol. 53, Issue 8). Springer Netherlands.
https://doi.org/10.1007/s10462-020-09825-6
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet
Classification with Deep Convolutional Neural Networks. Proceedings
of the 25th International Conference on Neural Information Processing
Systems, 1, 1097–1105. https://doi.org/10.5555/2999134.2999257
Li, H., & Zhang, L. (2018). MULTI-EXPOSURE FUSION WITH CNN
FEATURES Hui Li and Lei Zhang Department of Computing , The
Hong Kong Polytechnic University. 2018 25th IEEE International
Conference on Image Processing (ICIP), 1723–1727.
Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., Ambadar, Z., Matthews, I., &
Ave, F. (2010). The Extended Cohn-Kanade Dataset (CK+): A complete
dataset for action unit and emotion-specified expression. 2010 IEEE
Computer Society Conference on Computer Vision and Pattern
Recognition - Workshops, 4(July), 94–101.
https://doi.org/10.1109/CVPRW.2010.5543262
Lyons, M. J., Kamachi, M., & Gyoba, J. (1997). Japanese Female Facial
Expressions (JAFFE) Database of digital images. 21(3), 295–316.
https://doi.org/https://doi.org/10.6084/m9.figshare.5245003.v2
Lyons, M. J., Kamachi, M., & Gyoba, J. (2020). Coding Facial Expressions
with Gabor Wavelets (IVC Special Issue).
https://doi.org/10.5281/zenodo.4029679
Mahendran, A., & Vedaldi, A. (2016). Visualizing Deep Convolutional
Neural Networks Using Natural Pre-images. International Journal of
Computer Vision, 120(3), 233–255. https://doi.org/10.1007/s11263-016-
0911-8
Minaee, S., Minaei, M., & Abdolrashidi, A. (2021). Deep-Emotion: Facial
Expression Recognition Using Attentional Convolutional Network.
Sensors, 21, 1–16. https://doi.org/doi.org/10.3390/s21093046
Moravčík, E., & Basterrech, S. (2021). Image-Based Facial Emotion
Recognition Using Convolutional Neural Networks and Transfer
Learning. 5th International Scientific Conference on Intelligent
Information Technologies for Industry, IITI 2021, 330 LNNS, 3–14.
https://doi.org/10.1007/978-3-030-87178-9_1
Nadhir, M., Wahab, A. B., Nazir, A., Tan, A., Ren, Z., Halim, M., Noor, M.,
& Akbar, M. F. (2021). Efficientnet-Lite and Hybrid CNN-KNN
124
Implementation for Facial Expression Recognition on Raspberry Pi.

IEEE Access, 9, 134065–134080.
https://doi.org/10.1109/ACCESS.2021.3113337
Oquab, M., Bottou, L., Laptev, I., & Sivic, J. (2014). Learning and
Transferring Mid-Level Image Representations using Convolutional
Neural Networks. IEEE Conference on Computer Vision and Pattern
Recognition, 1717–1724. https://doi.org/10.1109/CVPR.2014.222
Pune, S. L. (2021). Facial Expression Recognition with Convolutional
Neural Networks. International Journal of Innovative Science and
Research Technology, 6(7), 324–328.
Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.-C. (2018).
MobileNetV2: Inverted Residuals and Linear Bottlenecks.
http://arxiv.org/abs/1801.04381
Sayette, M. A., Cohn, J. F., Wertz, J. M., Perrott, M. A., & Parrott, D. J.
(2001). A PSYCHOMETRIC EVALUATION OF THE FACIAL
ACTION CODING SYSTEM FOR ASSESSING SPONTANEOUS
EXPRESSION. Journal of Nonverbal Behavior, 25(3), 167–185.
https://doi.org/10.1023/A:1010671109788
Sharma, H. K., Choudhury, T., Kandwal, A., Mor, A., Sharma, P., Ahmed,
M. E., & Ahlawat, P. (2021). CNN Based Facial Expression
Recognition System Using Deep Learning Approach. Lecture Notes in
Networks and Systems, 291, 391–405. https://doi.org/10.1007/978-981-
16-4284-5_34
Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks
for Large-Scale Image Recognition. Published as a Conference Paper
at ICLR 2015, 1–14. https://arxiv.org/abs/1409.1556
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan,
D., Vanhoucke, V., & Rabinovich, A. (2015). Going Deeper with
Convolutions. 2015 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 1–9. https://doi.org/10.1109/CVPR.2015.7298594
Szegedy, C., Vanhoucke, V., & Shlens, J. (2016). Rethinking the Inception
Architecture for Computer Vision. 2016 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR).
https://doi.org/10.1109/CVPR.2016.308
Tan, M., & Le, Q. v. (2019). EfficientNet: Rethinking model scaling for
convolutional neural networks. 36th International Conference on
Machine Learning, ICML 2019, 2019-June, 10691–10700.
https://arxiv.org/abs/1905.11946
125
Wikanningrum, A., Rachmadi, R. F., & Ogata, K. (2019). Improving

Lightweight Convolutional Neural Network for Facial Expression
Recognition via Transfer Learning. 2019 International Conference on
Computer Engineering, Network, and Intelligent Multimedia, CENIM
2019 - Proceeding, 2019-Novem.
https://doi.org/10.1109/CENIM48368.2019.8973312
Xu, G., Yin, H., & Yang, J. (2020). Facial Expression Recognition Based on
Convolutional Neural Networks and Edge Computing. 2020 IEEE
Conference on Telecommunications, Optics and Computer Science,
TOCS 2020, 226–232.
https://doi.org/10.1109/TOCS50858.2020.9339739
View publication stats
126
DAFTAR RIWAYAT HIDUP
IDENTITAS DIRI
Nama : Islam Nur Alam
Tempat/Tanggal lahir : Malang /24 Juli 1996
Alamat : Perumahan Puri Indah Blok i2 no 8 Batu Kota
Batu
No Telp/Email : : 081335154133/islam.alam@binus.edu
PENDIDIKAN FORMAL
1. (2020), lulus Universitas Islam Negeri Maulana Malik Ibrahim Malang
2. (2014), lulus MA NEGERI KOTA BATU
3. (2010), lulus MTs NEGERI BATU
4. (2007), lulus SD NEGERI BEJI 02
PENDIDIKAN INFORMAL/PELATIHAN/KURSUS
1. (2021), mengikuti pelatihan AWS Certified Cloud Practioner
2. (2021), mengikuti pelatihan Alibaba Cloud Associate Cloud Computing
3. (2019), mengikuti pelatihan Machine Learning Development dari PT
Lintarsara
PENGALAMAN KERJA
1. (2021 s/d Sekarang), Lecture Spesialis Faculty Development Program
Binus University
2. (2017 s/d 2018), Algorithm and Programming Practicum Assistant 1
KEGIATAN ORGANISASI
1. (2016 s/d 2019), sebagai Ketua Devisi Mutli Media HMJ Teknik
Informatika

Metode Transfer Learning Pada Deep Convolutional Neural Network (DCNN) Untuk Pengenalan Ekspresi Wajah

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Metode Transfer Learning Pada Deep Convolutional Neural Network (DCNN) Untuk Pengenalan Ekspresi Wajah

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

METODE TRANSFER LEARNING PADA DEEP CONVOLUTIONAL NEURAL

Thesis · October 2022

Islam Nur Alam

The user has requested enhancement of the downloaded file.

Program Pascasarjana Ilmu Komputer

METODE TRANSFER LEARNING PADA DEEP

ISLAM NUR ALAM

Tesis Sebagai Salah Satu Syarat Untuk

METODE TRANSFER LEARNING PADA DEEP

Islam Nur Alam

Iman Herwidiana Kartowisastro, Ph.D.

I, Name Islam Nur Alam, Student ID 2301978444 truly acknowledge that my

Jakarta, 25 September 2022

Islam Nur Alam

Nama : Islam Nur Alam

Memberikan kepada Universitas Bina Nusantara hak non-eksklusif untuk

Menyatakan bahwa saya, akan mempertahankan hak exclusive saya, untuk

Hereby grant to my school, Bina Nusantara University, the non-exclusive right to

I acknowledge that I retain exclusive rights of my thesis by using all or part of it

Jakarta, 25 September 2022

Islam Nur Alam

3. Bapak Dr. Fredy Purnomo, S.Kom., M.Kom. selaku Dean of School of

5. Iman Herwidiana Kartowisastro, Ph.D. selaku pembimbing tesis yang telah

6. Segenap dosen yang telah memberikan ilmu dan pengetahuannya selama

7. Seluruh teman-teman baik yang di dalam program Faculty Development

UNIVERSITAS BINA NUSANTARA

Islam Nur Alam 2301978444

Keywords: Facial Expression Recognition, Deep Convolutional Neural Network,

Kata Kunci: Pengenalan Ekspresi wajah, Deep Convolutional Neural Network,

HALAMAN JUDUL ................................................................................................ i

1.1 Latar Belakang

Ekspresi wajah menunjukkan keadaan emosi seseorang yang mana melalui

Friesen mengkonfirmasi teori Darwin dan mengklasifikasikan enam ekspresi

Pengenalan ekspresi wajah atau Facial Expression Recognition (FER)

Pengenalan ekspresi wajah dapat meningkatkan kebutuhan industri dan kesehatan

seperti human-machine interaction, behavioural science, dan clinical practice.

penelitian ini adalah bagaimana mengembangkan sebuah model untuk model

pengenalan ekspresi wajah Efisien dalam komputasi dengan CNN dan

menerapkan tujuh pre-trained. Model pengenalan ekspresi wajah ini berguna

dalam healthcare systems, social marketing, targeted advertisements, music

industry, school counselling systems, dan deteksi kebohongan (Nadhir et al.,

Oleh karena itu beberapa penelitian sebelumnya menggunakan beberapa

algoritma machine learning seperti Support Vector Machine (SVM), logistic

regression, Artificial Neural Network (ANN). Tetapi algoritma yang telah

disebutkan di atas memiliki beberapa kelemahan. Diantaranya adalah memiliki

membuat model pengenalan ekspresi yang menghasilkan akurasi tinggi dan

efisien dalam komputasi (Nadhir et al., 2021).

Metode machine learning konvensional memerlukan teknik khusus untuk

mempunyai dimensi tinggi. Di sisi lain keunggulan metode dapat mempelajari

data gambar secara otomatis dan mendalam yaitu dengan menerapkan

convolutional layer sebagai feature extraction. Zhuang Liu Mengusulkan

arsitektur yang disebut DensNet Berdasarkan dengan algoritma Deep

Convolutional Neural Network. Arsitektur ini dapat mencapai akurasi pengenalan

Zuheng juga mengusulkan arsitektur FaceLiveNet berbasis Deep CNN, yang

besar bernama FER2013.

Kapan harus menggunakan machine learning atau deep learning adalah

fitur dilakukan secara manual artinya pengembang harus melakukan ekstraksi

ini masalah komputasi dapat terselesaikan dengan adanya penggunaan Graphics

Processing Unit (GPU)(Krizhevsky et al., 2012).

teoritis(Moravčík & Basterrech, 2021). Banyak tantangan yang dihadapi dalam

membuat model pengenalan ekspresi wajah. Pengenalan ekspresi wajah

membutuhkan gambar yang beresolusi cukup tinggi. Perbedaan wajah setiap