Anda di halaman 1dari 143

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/364330227

METODE TRANSFER LEARNING PADA DEEP CONVOLUTIONAL NEURAL


NETWORK (DCNN) UNTUK PENGENALAN EKSPRESI WAJAH

Thesis · October 2022

CITATIONS READS

0 509

1 author:

Islam Nur Alam


Binus University
5 PUBLICATIONS   1 CITATION   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Image-based Facial Emotion Recognition Indonesian Mixed Emotion Datasets (IMED) Using Lightweight CNN and Transfer Learning Approach View project

All content following this page was uploaded by Islam Nur Alam on 14 October 2022.

The user has requested enhancement of the downloaded file.


METODE TRANSFER LEARNING PADA DEEP
CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH

RESEARCH
ISLAM NUR ALAM

2301978444

Program Pascasarjana Ilmu Komputer


PROGRAM STUDI TEKNIK INFORMATIKA JENJANG S2
UNIVERSITAS BINA NUSANTARA
JAKARTA
2022
HALAM AN JUDU L

METODE TRANSFER LEARNING PADA DEEP


CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH

RESEARCH

ISLAM NUR ALAM

2301978444

Tesis Sebagai Salah Satu Syarat Untuk


Memperoleh Gelar Master
TEKNIK INFORMATIKA JENJANG S2
Pada
PROGRAM PASCA SARJANA
UNIVERSITAS BINA NUSANTARA

i
PERSETUJUAN PEM BIM BING

METODE TRANSFER LEARNING PADA DEEP


CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH

RESEARCH

Islam Nur Alam

2301978444

Pembimbing:

Iman Herwidiana Kartowisastro, Ph.D.


27– 07 – 2022

ii
PERNYATAAN DEWAN PENGUJI
Pernyataan Dewan Penguji ini diambil oleh mahasiswa setelah sidang tesis dan
melakukan perbaikan sesuai notulen sidang di Layanan Mahasiswa Binus Online
Learning.
Halaman ini memuat Pernyataan Dewan Penguji tentang hasil ujian tesis
mahasiswa dengan nama dan tanda tangan masing-masing anggota dewan
penguji. Lembar pernyataan ini diletakkan setelah lembar persetujuan
pembimbing (iii) tanpa diberi nomor halaman, dan tidak perlu dimasukkan ke
dalam daftar isi.

iii
PERNYATAAN ORI SINA LITAS

HALAMAN PERNYATAAN
STUDENTS STATEMENT
Saya, nama Islam Nur Alam, NIM 2301978444 menyatakan dengan sebenar-
benarnya bahwa tesis saya berjudul “Metode Transfer Learning pada Deep
Convolutional Neural Network (DCNN) untuk Pengenalan Ekspresi Wajah”
adalah merupakan gagasan dan hasil research saya sendiri dengan bimbingan
Dosen Pembimbing.

Saya juga menyatakan dengan sebenarnya bahwa isi tesis ini tidak merupakan
jiplakan dan bukan pula dari karya orang lain, kecuali kutipan dari literatur dan
atau hasil wawancara tertulis yang saya acu dan telah saya sebutkan di Daftar
Acuan dan Daftar Pustaka.

Demikian pernyataan ini saya buat dengan sebenarnya dan saya bersedia
menerima sanksi apabila ternyata pernyataan saya ini tidak benar.

I, Name Islam Nur Alam, Student ID 2301978444 truly acknowledge that my


thesis with title “Transfer Learning Method in Deep Convolutional Neural
Network (DCNN) for Facial Expression Recognition” is my concept and project
result with guidance from supervisor.

I, also truly acknowledge that content of this thesis are not copyed and not from
another people work, except my citation from literature or written interview result
and already write in reference list and bibliography list. That’s my acknowledge
were truly made and if in reality this acknowledge weren’t true, I willing sanction.

Jakarta, 25 September 2022


Yang menyatakan

Islam Nur Alam


2301978444

iv
PERNYATAAN HAK CIPTA

PERNYATAAN
STATEMENT
Dengan ini saya,

Nama : Islam Nur Alam


NIM : 2301978444
Judul Tesis :METODE TRANSFER LEARNING PADA DEEP
CONVOLUTIONAL NEURAL NETWORK (DCNN) UNTUK
PENGENALAN EKSPRESI WAJAH

Memberikan kepada Universitas Bina Nusantara hak non-eksklusif untuk


menyimpan, memperbanyak, dan menyebarluaskan tesis karya saya, secara
keseluruhan atau hanya sebagian atau hanya ringkasannya saja, dalam bentuk
format tercetak dan atau elektronik.

Menyatakan bahwa saya, akan mempertahankan hak exclusive saya, untuk


menggunakan seluruh atau sebagian isi tesis saya, guna pengembangan karya di
masa depan, misalnya bentuk artikel, buku, perangkat lunak, ataupun sistem
informasi.

Hereby grant to my school, Bina Nusantara University, the non-exclusive right to


archive, reproduce, and distribute my thesis, in whole or in part, whether in the
form of printed and electronic formats.

I acknowledge that I retain exclusive rights of my thesis by using all or part of it


in the future work or outputs, such as article, book, software, and information
system.

Jakarta, 25 September 2022

Islam Nur Alam


2301978444

v
KATA PENGANTAR
Puji serta syukur penulis ucapkan kepada Allah SWT karena atas kehendaknya
penulis dapat menyelesaikan tesis yang berjudul “METODE TRANSFER
LEARNING PADA DEEP CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH”.

Pada kesempatan kali ini penulis ingin mengucapkan rasa terima kasih kepada
istri penulis, Chyntia Ayu Maulina, kedua orang tua, dan seluruh kerabat penulis
yang telah mendukung penulis dalam proses penyusunan tesis ini. Tidak lupa juga
penulis ingin mengucapkan terima kasih kepada:

1. Bapak Prof. Dr. Ir. Harjanto Prabowo, M.M. selaku Rektor Universitas Bina
Nusantara.

2. Bapak Dr. Sani Muhamad Isa, S.Si., M.Kom. selaku Dean of Binus Graduate
Program dan Head of Master of Information Technology.

3. Bapak Dr. Fredy Purnomo, S.Kom., M.Kom. selaku Dean of School of


Computer Science.

4. Bapak Dr. Ir. Derwin Suhartono, S.Kom., MTI. selaku Head of Computer
Science Department.

5. Iman Herwidiana Kartowisastro, Ph.D. selaku pembimbing tesis yang telah


meluangkan waktu, tenaga, dan pikirannya dalam membantu penulis
menyelesaikan tesis ini.

6. Segenap dosen yang telah memberikan ilmu dan pengetahuannya selama


penulisan tesis sehingga penulis dapat menyelesaikan tesis ini.

7. Seluruh teman-teman baik yang di dalam program Faculty Development


Program (FDP) angkatan 2021 atau yang di luar program.

8. Semua pihak yang secara langsung atau tidak langsung membantu penulis
dalam penyusunan tesis ini yang tidak dapat disebutkan satu persatu.

vi
ABSTRAK

UNIVERSITAS BINA NUSANTARA


TRANSFER LEARNING METHOD IN DEEP CONVOLUTIONAL NEURAL
NETWORK (DCNN) FOR FACIAL EXPRESSION RECOGNITION

Islam Nur Alam 2301978444

ABSTRACT

Facial expression recognition systems are very useful in many industrial fields,
including health, product marketing, target advertising, school counseling
systems, and lie detection. This study proposes the use of seven pre-trained Deep
Convolutional Neural Network (CNN) architectures for the manufacture of facial
expression recognition models, namely EfficientNet-B0, VGG-19, VGG-16,
MobileNet-V2, Inception-V3, ResNet-152, DenseNet- 201. In making this facial
expression recognition model, transfer learning method is used with a fine-tune
strategy. In this technique, first, the EfficientNet-B0 architecture on the lower
layers is used as a feature extraction, meaning that the layer is left frozen.
Furthermore, layers close to the output layer are unfreezed several layers to be
retrained with CK+ and JAFFE datasets, each of which consists of seven strategy
classes, this is called fine-tuning. Transfer learning techniques are especially
good for working on small sample datasets such as CK+ and JAFFE. In this
proposed research, the EfficientNet-B0 model has succeeded in obtaining a
testing accuracy of 99.30% on CK+. Furthermore, using the VGG-19 model
architecture to recognize the JAFFE pattern, it achieved an accuracy of 100.0%.
In this case, from the evaluation results of the facial expression recognition model
that has been proposed above using the EfficienNet architecture, it produces
better performance than the previous DCNN architecture so that the system can
be applied in the industrial world.

Keywords: Facial Expression Recognition, Deep Convolutional Neural Network,


Deep Learning, Transfer Learning, EfficientNet

vii
ABSTRAK

Sistem pengenalan ekspresi wajah sangat berguna dalam banyak bidang industri
antara lain dalam bidang kesehatan, pemasaran produk, target periklanan, school
conselling system, dan deteksi kebohongan. Dalam penelitian ini mengajukan
penggunaan tujuh arsitektur pre-trained Deep Convolutional Neural Network
(CNN) untuk pembuatan model pengenalan ekspresi wajah yaitu EfficientNet-B0,
VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152, DenseNet-201.
Dalam pembuatan model pengenalan ekspresi wajah ini digunakan metode
transfer learning dengan strategi fine-tune. Dalam teknik ini pertama arsitektur
EfficientNet-B0 pada layer-layer bagian bawah digunakan sebagai feature
exctraction artinya layer dibiarkan frozen. Selanjutnya layer-layer yang dekat
dengan lapisan output dilakukan unfreeze beberapa layer untuk dilatih ulang
dengan datasets CK+ dan JAFFE yang masing-masing terdiri dari tujuh kelas
strategi inilah yang disebut dengan fine-tuning. Teknik transfer learning sangat
baik digunakan untuk bekerja pada sampel datasets yang sedikit seperti CK+ dan
JAFFE. Dalam penelitian yang telah diajukan ini model EfficientNet-B0 berhasil
memperoleh akurasi testing mencapai 99.30% pada CK+. Selanjutnya
menggunakan arsitektur model VGG-19 untuk mengenali pola JAFFE mencapai
akurasi 100.0%. Dalam hal ini dari hasil evaluasi model pengenalan ekspresi
wajah yang telah diusulkan di atas dengan menggunakan arsitektur EfficienNet
menghasilkan kinerja yang lebih baik dari arsitektur DCNN sebelumnya sehingga
sistem dapat diterapkan di dunia industri.

Kata Kunci: Pengenalan Ekspresi wajah, Deep Convolutional Neural Network,


Deep Learning, Transfer Learning, EfficientNet

viii
DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i


PERSETUJUAN PEMBIMBING ......................................................................... ii
PERNYATAAN ORISINALITAS........................................................................ iv
PERNYATAAN HAK CIPTA ............................................................................... v
KATA PENGANTAR ............................................................................................ vi
ABSTRAK ............................................................................................................. vii
DAFTAR ISI ........................................................................................................... ix
DAFTAR GAMBAR ............................................................................................. xii
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ........................................................................................ 1
1.1 Latar Belakang ...............................................................................................1
1.2 Rumusan Masalah ..........................................................................................6
1.3 Tujuan Penelitian ............................................................................................6
1.4 Manfaat Penelitian ..........................................................................................7
1.5 Ruang Lingkup ...............................................................................................7
BAB II LANDASAN TEORI ................................................................................. 9
2.1 Facial Expression Recognition (FER).......................................................9
2.2 Gambaran Arsitektur Convolutional Neural Network (CNN) ................11
2.3 CNN’s Layer ............................................................................................13
2.3.1 Convolutional Layer ............................................................................. 13
2.3.2 Active Function Rectified Linear Unit (ReLU)..................................... 16
2.3.3 Pooling Layer ....................................................................................... 17
2.3.4 Fully Connected Layer.......................................................................... 17
2.3.5 Softmax Classifier ................................................................................. 18
2.4 Hyperparameters .....................................................................................19
2.4.1 Hyperparamater pada Model Jaringan ........................................... 19
2.4.2 Hyperparameter pada Proses Training ........................................... 20
2.4.3 Loss Function .................................................................................. 22
2.5 Arsitektur Convolutional Neural Network (CNN) ..................................23
2.5.1 EfficientNet ..................................................................................... 24
2.5.2 VGG-19 ........................................................................................... 29

ix
2.5.3 VGG-16 ........................................................................................... 29
2.5.4 MobileNet-V2 ................................................................................. 30
2.5.5 ResNet-152 ...................................................................................... 31
2.5.6 Inception-V4 ................................................................................... 32
2.5.7 DenseNet-201.................................................................................. 33
2.6 Tinjauan Pustaka .....................................................................................34
2.6.1 Penelitian Terkait ............................................................................ 34
2.6.2 Analisis Tinjauan Pustaka ............................................................... 48
BAB III METODOLOGI ..................................................................................... 52
3.1 Kerangka Pikir .........................................................................................52
3.2 Skenario Eksperimen Model ...................................................................54
3.2.1 Desain Model .................................................................................. 55
3.2.2 Implementasi Model Pre-Trained Deep CNN ................................ 56
3.3 Benchmark Datasets ................................................................................58
3.4 Pre-processing Data ................................................................................60
3.4.1 Augmentasi Gambar........................................................................ 60
3.4.2 Pembagian CK+ dan JAFFE ........................................................... 61
3.5 Implementasi CNN Model Sequential.....................................................65
3.5.1 Fine-Tuning ..................................................................................... 66
3.5.2 Proses Training Stage dan Testing Stage ........................................ 69
3.5.3 Inisialisasi Hypertparameter ........................................................... 70
3.6 Evaluasi State of the Art Model ...............................................................72
3.6.1 Evaluasi Model Sequential .............................................................. 73
3.6.2 Evaluasi Model Berbasis Transfer Learning .................................. 74
3.6.3 Evaluasi Tahap Testing ................................................................... 76
BAB IV HASIL DAN PEMBAHASAN .............................................................. 79
4.1 Hasil Implementasi .......................................................................................79
4.1.1 Hasil Pengujian Model Standar CNN ................................................... 79
4.1.2 Hasil Pengujian Model Berbasis Transfer Learning ............................ 87
4.2 Evaluasi ......................................................................................................100
4.2.1 Hasil Evaluasi Model Standar CNN ................................................... 100
4.2.2 Hasil Evaluasi Model Berbasis Transfer Learning............................. 107
4.3 Evaluasi Testing .........................................................................................115
4.4 Evaluasi Perbandingan dengan Metode sebelumnya .................................117

x
BAB V SIMPULAN DAN SARAN .................................................................... 120
5.1 Simpulan .....................................................................................................120
5.2 Saran ...........................................................................................................121
DAFTAR PUSTAKA .......................................................................................... 122

xi
DAFTAR GAMBAR
Gambar 2.1 Pipeline Secara Umun Model Pengenalan Ekspresi wajah (Rizwan
Ahmed Khan, 2013). ............................................................................................... 10
Gambar 2.2 Arsitektur Convolutional Neural Network (Islam Nur Alam, 2020). . 12
Gambar 2.3 Urutan Lapisan CNN. .......................................................................... 13
Gambar 2.4 Visualisasi Input dan Filter pada Convolutional Neural Network
(CNN)...................................................................................................................... 15
Gambar 2.5 ReLU Function (Karpathy, 2018)........................................................ 16
Gambar 2.6 Max Pooling Sample (Karpathy, 2018). ............................................. 17
Gambar 2.7 Arsitektur EfficientNet-B0 (Blog AI Google, 2020). ......................... 25
Gambar 2.8 Arsitektur EfficientNet (Feature Extractor). ...................................... 26
Gambar 2.9 Struktur Model VGG-19. .................................................................... 29
Gambar 2.10 Konvolusi standar (a) dibagi menjadi dua lapisan: depthwise
convolution (b) dan pointwise convolution (c) untuk membuat filter terpisah
secara mendalam (depthwise) (Mark Sandler, 2019). ............................................ 31
Gambar 2.11 Blok Residual Network (Kaiming He, 2016). ................................... 32
Gambar 2.12 Arsitektur DenseNet (Chenquan Gan, 2018). ................................... 34
Gambar 3.1 Kerangka Pikir Penelitian.................................................................... 52
Gambar 3.2 Research Model................................................................................... 55
Gambar 3.3 Desain Model ...................................................................................... 56
Gambar 3.4 Diagram Alir Implementasi Arsitektur Deep CNN............................. 57
Gambar 3.5 Spesifikasi Mesin untuk Proses Training. ........................................... 58
Gambar 3.6 Kelas Ekspresi Datasets CK+ ( Patrick Lucey, 2010). ....................... 59
Gambar 3.7 Contoh gambar dari dataset JAFFE. ................................................... 59
Gambar 3.8 Augmentasi gambar............................................................................. 60
Gambar 3.9 Arsitektur Standar CNN. ..................................................................... 66
Gambar 3.10 Proses Fine-Tuning pada lapisan Classifier. ..................................... 67
Gambar 3.11 Skema Proses Training dan Testing. ................................................. 69
Gambar 4.2 Akurasi Training dan Loss CK+ 360×360 Piksel. .............................. 83
Gambar 4.1 Akurasi Training dan Loss CK+ 224×224. ......................................... 83
Gambar 4.3 Akurasi Training dan Loss CK+ 128×128. ......................................... 83
Gambar 4.5 Akurasi Training dan Loss CK+ 64×64. ............................................. 84

xii
Gambar 4. 4 Akurasi Training dan Loss CK+ 48×48. ............................................ 84
Gambar 4.6 Akurasi Training dan Loss JAFFE 360×360. ..................................... 84
Gambar 4.8 Akurasi Training dan Loss JAFFE 224×224. ..................................... 85
Gambar 4.7 Akurasi Training dan Loss JAFFE 128×128. ..................................... 85
Gambar 4.9 Akurasi Training dan Loss JAFFE 64×64. ......................................... 85
Gambar 4.10 Akurasi Training dan Loss JAFFE 48×48. ....................................... 86
Gambar 4. 11 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan EfficientNet-B0. .......................................... 90
Gambar 4.12 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan EfficientNet-B0. ....................................... 91
Gambar 4.13 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-19. ...................................................... 92
Gambar 4.14 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-19. ................................................... 92
Gambar 4.16 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-16. ...................................................... 93
Gambar 4. 15 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-16. ................................................... 93
Gambar 4.17 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan MobileNet-V2. ............................................. 94
Gambar 4. 18 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan MobileNet-V2. .......................................... 95
Gambar 4.20 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan ResNet-152. ................................................. 96
Gambar 4. 19 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan ResNet-152. .............................................. 96
Gambar 4.21 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan Inception-V3. ............................................... 97
Gambar 4.22 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan Inception-V3. ........................................... 98
Gambar 4.24 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan DenseNet-201. ............................................. 99

xiii
Gambar 4.23 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan DenseNet-201........................................... 99
Gambar 4.25 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
CK+. ...................................................................................................................... 101
Gambar 4.26 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
JAFFE. .................................................................................................................. 103
Gambar 4.27 Hasil Akurasi Model. ...................................................................... 105
Gambar 4.28 Hasil Akurasi Model. ...................................................................... 105
Gambar 4.29 Hasil Confusion Matrix model pre-trained CK+ ........................... 109
Gambar 4.30 Hasil Confusion Matrix model pre-trained JAFFE. ........................ 111
Gambar 4.31 Hasil Akurasi Model Pre-Trained Deep CNN. ............................... 114
Gambar 4.32 Hasil F-1 Score Model Pre-Trained Deep CNN. ............................ 115

xiv
DAFTAR TABEL
Tabel 2.1 Arsitektur jaringan baseline EfficientNet-B0 ......................................... 28
Tabel 2.2 Struktur Model VGG-16. ........................................................................ 30
Tabel 2.3 Perbandingan Riset Mengenai Model Pengenalan Ekspresi Wajah. ...... 42
Tabel 3.1 Jumlah Gambar Tiap Kelas Dataset CK+(data training). 61
Tabel 3.2 Jumlah Gambar Tiap Kelas Datasets CK+ (validation training). .......... 62
Tabel 3.3 Jumlah Gambar Tiap Kelas Datasets CK+ (data testing). ...................... 62
Tabel 3.4 Jumlah Gambar Tiap Kelas Datasets JAFFE (data training). ............... 63
Tabel 3.5 Jumlah Gambar Tiap Kelas Datasets JAFFE (data validation). ............ 64
Tabel 3.6 Jumlah Gambar Tiap Kelas Datasets JAFFE (data testing). ................. 64
Tabel 3.7 Inisialisasi Hyperparameter Tunning...................................................... 71
Tabel 3.8 Hasil Testing akurasi model CNN Standar. ............................................ 73
Tabel 3.9 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode
Training yang Berbeda dalam Transfer Learning. ................................................. 74
Tabel 3.10 Perbandingan Akurasi Testing CK+ dan JAFFE dengan Model Pre-
trained yang Berbeda. ............................................................................................. 75
Tabel 4.1 Perbandingan Akurasi Testing Model Standar CNN Menggunakan
CK+ dan JAFFE. ..................................................................................................... 82
Tabel 4.2 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode
Training yang Berbeda dalam Transfer Learning. ................................................. 88
Tabel 4.3 Perbandingan akurasi testing dengan tujuh model Deep Convolutional
Neural Network pada CK+ dan JAFFE. ................................................................. 89
Tabel 4.4 Hasil Classification Report Standar CNN. ........................................... 104
Tabel 4.5 Hasil Classification Report Pre-Trained Model. .................................. 112
Tabel 4.6 Menampilkan klasifikasi F1-Score dari setiap kelas ekspresi dalam set
data CK+. .............................................................................................................. 116
Tabel 4.7 Menampilkan gambar yang salah diklasifikasikan dari set data CK+. . 116
Tabel 4.8 Perbandingan akurasi metode yang diusulkan dengan Penelitian
sebelumnya pada datasets CK+ dan JAFFE. ........................................................ 118

xv
BAB I PENDAHULUAN

1.1 Latar Belakang

Ekspresi wajah menunjukkan keadaan emosi seseorang yang mana melalui

ekspresi ini, Dapat menjadi penunjang keputusan dalam suatu tindakan terhadap

seseorang (Izard et al., 2011). Ekspresi wajah merupakan suatu keadaan alami

yang dirasakan manusia karena sebagai akibat dari suatu tindakan yang

dialaminya. Lebih jauh lagi ekspresi seseorang yang bersifat universal karena

perbedaan wajah dari ras suku dan warna kulit. Pada akhir abad ke-20, Ekman dan

Friesen mengkonfirmasi teori Darwin dan mengklasifikasikan enam ekspresi

wajah secara umum yaitu: bahagia, takut, terkejut, jijik, sedih, dan marah (Sayette

et al., 2001).

Pengenalan ekspresi wajah atau Facial Expression Recognition (FER)

dalam bidang Computer Vision Merupakan topik yang terus berlanjut dalam

penelitiannya. Para peneliti tertarik untuk meneliti dan membuat model FER atau

Pengenalan ekspresi wajah dapat meningkatkan kebutuhan industri dan kesehatan

seperti human-machine interaction, behavioural science, dan clinical practice.

Kemajuan terbaru saat ini dengan peningkatan perangkat keras berupa GPU

Sehingga untuk membuat model ekspresi wajah dapat teratasi. Tapi fokus dalam

penelitian ini adalah bagaimana mengembangkan sebuah model untuk model

pengenalan ekspresi wajah Efisien dalam komputasi dengan CNN dan

menerapkan tujuh pre-trained. Model pengenalan ekspresi wajah ini berguna

dalam healthcare systems, social marketing, targeted advertisements, music

industry, school counselling systems, dan deteksi kebohongan (Nadhir et al.,

2021).

1
2

Oleh karena itu beberapa penelitian sebelumnya menggunakan beberapa

algoritma machine learning seperti Support Vector Machine (SVM), logistic

regression, Artificial Neural Network (ANN). Tetapi algoritma yang telah

disebutkan di atas memiliki beberapa kelemahan. Diantaranya adalah memiliki

akurasi yang rendah ketika memproses datasets ekspresi wajah yang besar dan

banyak variasi data. Hingga sampai saat ini para peneliti berlomba-lomba untuk

membuat model pengenalan ekspresi yang menghasilkan akurasi tinggi dan

efisien dalam komputasi (Nadhir et al., 2021).

Metode machine learning konvensional memerlukan teknik khusus untuk

mempelajari fitur dari data berupa gambar atau data yang tidak terstruktur yang

mempunyai dimensi tinggi. Di sisi lain keunggulan metode dapat mempelajari

data gambar secara otomatis dan mendalam yaitu dengan menerapkan

convolutional layer sebagai feature extraction. Zhuang Liu Mengusulkan

arsitektur yang disebut DensNet Berdasarkan dengan algoritma Deep

Convolutional Neural Network. Arsitektur ini dapat mencapai akurasi pengenalan

emosi dasar. DenseNet juga telah teruji dalam ImageNet mencapai akurasi 77%.

Zuheng juga mengusulkan arsitektur FaceLiveNet berbasis Deep CNN, yang

mana FaceLiveNet mendapat akurasi 68.60% pada Dataset ekspresi wajah yang

besar bernama FER2013.

Kapan harus menggunakan machine learning atau deep learning adalah

pertanyaan yang sulit dijawab, karena tergantung dari masalah yang akan

diselesaikan. Masalah tertentu cocok diatasi dengan teknik deep learning tapi

tidak cocok untuk machine learning. Dalam machine learning proses ekstraksi

fitur dilakukan secara manual artinya pengembang harus melakukan ekstraksi


3

fitur menggunakan algoritma yang relatif lama dan hanya baik untuk datasets

yang relatif sedikit. Metode machine learning tidak cocok untuk mempelajari fitur

gambar ekspresi wajah yang bersimensi tinggi karena banyaknya fitur yang ada

dalam gambar juga membutuhkan dataset yang besar di mana banyak varian di

dalamnya. Tetapi algoritma deep learning CNN Lebih mahal dalam hal komputasi

daripada penerapan machine learning. Untuk melatih deep CNN tergantung pada

ukuran dataset yang digunakan dan kebutuhan komputasi yang besar. Dalam hal

ini masalah komputasi dapat terselesaikan dengan adanya penggunaan Graphics

Processing Unit (GPU)(Krizhevsky et al., 2012).

Algoritma deep CNN Merupakan jenis algoritma yang sangat baik untuk

memproses data yang tidak terstruktur khususnya gambar ekspresi wajah manusia.

Namun dalam hal ini membuat model pengenalan ekspresi wajah menggunakan

CNN hanya beberapa lapisan terbukti bisa, Tapi jika membuat model dengan

menambahkan lapisan yang lebih dalam akan lebih baik dalam hal akurasi secara

teoritis(Moravčík & Basterrech, 2021). Banyak tantangan yang dihadapi dalam

membuat model pengenalan ekspresi wajah. Pengenalan ekspresi wajah

membutuhkan gambar yang beresolusi cukup tinggi. Perbedaan wajah setiap

manusia dan ekspresi seseorang yang begitu sulit dibedakan sehingga mempe

tugas klasifikasi(Khan et al., 2020). Dalam hal ini, melatih algoritma CNN yang

sangat dalam dengan menambahkan banyak convolution layer berlebih akan

menyebabkan model tidak dapat melakukan generalisasi dengan baik. Karena

dengan menambahkan jumlah lapisan pada lapisan feature extraction secara terus

menerus tidak dapat meningkatkan akurasi pada tingkat tertentu karena masalah

vanishing gradient. Vanishing gradient merupakan keadaan di mana jika jumlah


4

layer terlalu dalam maka maka akan terjadi permasalahan luruhnya/hilangnya

efektivitas gradien pada convolution layer, dalam hal ini gradien menyusut seiring

proses backprobagation. Gradien merupakan nilai yang digunakan untuk

memperbaharui bobot pada jaringan Convolutional Neural Network. Gradien

menghilang sebelum model mencapai titik konvergen sehingga proses

memperbaharui bobot atau backpropagation tidak mempengaruhi nilai loss.

Model deep CNN pra-terlatih yang banyak digunakan adalah VGG-16 (Simonyan

& Zisserman, 2015), Resnet-50, Resnet-152 (He et al., 2016), Inception-v3

(Szegedy et al., 2015) dan DenseNet-161 (Huang et al., 2018). Tetapi melatih

model arsitektur deep CNN begitu dalam juga membutuhkan banyak daya dan

komputasi yang tinggi.

Oleh karena itu untuk mengatasi masalah beberapa arsitektur CNN yang

terkenal sebelumnya, tim google brain khususnya Tan dan Le membuat arsitektur

berbasis algoritma deep CNN yang disebut EfficientNet. Arsitektur ini telah

dilakukan penskalaan tidak hanya kedalaman, tetapi juga lebar dan resolusi

jaringan. Sehingga model akan seimbang dari segi dimensi yang relatif terhadap

dimensi yang lain. Dengan cara ini EfficientNet hanya memerlukan kebutuhan

komputasi yang tidak sebanyak arsitektur deep CNN sebelumnya.

Oleh karena itu, sebuah penelitian yang dilakukan oleh (Tan & Le, 2019)

Dalam studinya, mereka mempelajari penskalaan model secara automatic dan

mengidentifikasi bahwa menyeimbangkan kedalaman, lebar, dan resolusi jaringan

dengan hati-hati dapat menghasilkan kinerja yang lebih baik dan efficient.

Berdasarkan pengamatan yang dilakukan (Tan & Le, 2019), mereka mengusulkan

metode penskalaan baru yang secara seragam menskalakan semua dimensi


5

kedalaman/lebar/resolusi menggunakan koefisien gabungan yang sederhana

namun sangat efektif kemudian mendemonstrasikan keefektifan metode ini dalam

meningkatkan MobileNets dan ResNet.

Dalam tesis ini arah penelitian yang dilakukan adalah membuat arsitektur

standar CNN kemudian dilanjutkan dengan menggunakan tujuh model arsitektur

pre-trained Deep Convolutional Neural Network untuk pembuatan model

pengenalan ekspresi wajah khususnya menggunakan datasets CK+ dan JAFFE.

Selanjutnya adalah yang mana setiap tujuh model Deep CNN pada lapisan bawah

yang cenderung tetap padat digunakan sebagai feature ectraction. Kemudian

melakukan fine-tune yaitu mencairkan lapisan-lapisan yang dekat dengan output

dengan unfreeze beberapa layer tertentu dengan melatihnya ulang pada datasets

CK+ dan JAFFE. Proses ini disebut transfer learning yang mana teknik transfer

learning sangat baik untuk bekerja pada datasets yang relatif kecil dalam

peneltitian ini yaitu CK+ dan JAFFE. Peneliti akan melakukan eksperimen

dengan pendekatan transfer learning pada tujuh arsitektur model pre-trained

Deep Convolutional Neural Network diantaranya adalah EfficientNet-B0, VGG-

19, VGG-16, ResNet-152, MobileNet-V2, Inception-V3, DenseNet-201. Langkah

selanjutnya adalah peneliti membandingkan akurasi testing dari kedua datsets

CK+ dan JAFFE untuk setiap model mulai dari arsitektur standar CNN dan Deep

CNN.

Berdasarkan latar belakang yang dijabarkan di atas kontribusi penelitian

ini dapat dirangkum sebagai berikut:

I. Mengembangkan model pengenalan ekspresi wajah menggunakan

arsitektur standar Convolutional Neural Network (CNN) untuk


6

mengenali pola datasets CK+ dan JAFFE.

II. Pengaplikasian tujuh model pre-trained model EfficientNet-B0,

VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152,

DenseNet-201 untuk mengenali pola CK+ dan JAFFE dengan

menerapkan strategi fine-tuning dengan pendekatan transfer

learning.

III. Membandingkan kinerja pre-trained Deep Convolutional Neural

Network (CNN) untuk pembuatan model pengenalan ekspresi

wajah menggunakan datasets CK+ dan JAFFE.

1.2 Rumusan Masalah

Berdasarkan latar belakang masalah yang telah dipaparkan sebelumnya,

maka masalah penelitian dapat dirumuskan sebagai berikut:

- Bagaimana membangun model pengenalan ekspresi wajah menggunakan

algoritma Convolutional Neural Network?

- Bagaimana membangun model pengenalan ekspresi wajah menggunakan

teknik transfer learning dengan menerepkan model pre-trained Deep

Convolutional Neural Network?

- Seberapa tinggi perbandingan akurasi model pengenalan ekspresi wajah

menggunakan teknik transfer learning dan Convolutional Neural Network

dalam pengujiannya menggunakan datasets CK+ dan JAFFE?

1.3 Tujuan Penelitian

Berdasarkan perumusan masalah penelitian yang telah dijelaskan di atas,

tujuan penelitian dan manfaat penelitian disusun sebagai berikut:


7

- Membangun model pengenalan ekspresi wajah menggunakan algoritma

Convolutional Neural Network (CNN)

- Membangun mekanisme dan melakukan evaluasi dalam penggunaannya

untuk membangun model pengenalan ekspresi wajah berbasis transfer

learning dengan menerapkan pre-trained Deep Convolutional Neural

Network (CNN).

- Menemukan akurasi terbaik dalam penggunaan model arsitektur pre-

trained dan algoritma Convolutional Neural Network dalam

penggunaannya untuk pengenalan ekspresi wajah khususnya

menggunakan dua datasets CK+ dan JAFFE.

1.4 Manfaat Penelitian

Manfaat yang dapat di harapkan dari penelitian pengenalan ekspresi wajah

menggunakan algoritma Convolutional Neural Network berbasis deep learning ini

adalah sebagai berikut:

- Model pengenalan ekspresi wajah ini dapat disematkan ke dalam model

robot untuk mendeteksi ekspresi wajah manusia, sehingga dapat

menentukan tindakan dari masalah, berdasarkan ekspresi seseorang.

- Model Pengenalan ekspresi wajah ini dapat dikembangkan ke dalam

CCTV untuk mendeteksi ekspresi wajah manusia.

1.5 Ruang Lingkup

Ruang lingkup yang diteliti dalam penelitian ini adalah sebagai berikut:

- Data yang digunakan menggunakan dataset publik CK+(Lucey et al.,

2010) dan The Japanese Female Facial Expression JAFFE(Lyons et al.,


8

2020). Dua datasets ini terdiri dari gambar yang dikategorikan berdasarkan

emosi yang ditunjukkan pada tujuh ekspresi wajah yaitu senang, netral,

sedih, marah, terkejut, jijik dan takut.

- Dalam penelitian ini menggunakan standar arsitektur Convolutional

Neural Network dan metode transfer learning dari tujuh arsitektur pre-

trained Deep Convolutional Neural Network yaitu EfficientNet-B0, VGG-

19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152, DenseNet201

untuk pembuatan model pengenalan ekspresi wajah. Selanjutnya peneliti

membandingkan hasil akurasi antara CK+ dan JAFFE.


BAB II LANDASAN TEORI

2.1 Facial Expression Recognition (FER)

Facial Expression Recognition (FER) berbasis gambar merupakan

masalah penting terutama untuk menganalisis emosi atau perasaan manusia dalam

kondisi tertentu, seperti saat menonton adegan film atau bermain game komputer.

Pengenalan ekspresi wajah berbasis citra merupakan salah satu masalah penting

dan dapat diterapkan untuk permasalahan dibanyak aplikasi, termasuk analisis

adegan film, human computer interaction, dan pemahaman fisiologi manusia.

Tuntutan penyelesaian pengenalan ekspresi wajah berbasis citra membuat peneliti

mengajukan beberapa dataset pengenalan ekspresi wajah manusia berbasis citra

yang berbeda-beda antara lain FER2013, FER, CK (Cohn-Kanade) dan CK+48

(Wikanningrum et al., 2019).

Facial Expression Recognition (FER) adalah bidang computer vision yang

menggunakan berbagai teknik untuk mengidentifikasi emosi dari ekspresi wajah

manusia. Para peneliti tertarik pada FER, karena memahami emosi seseorang

dapat meningkatkan human-machine interaction, behavioural science, dan

clinical practice. Kemajuan terbaru dalam perangkat keras komputer dan teknik

klasifikasi gambar memungkinkan peneliti untuk mengembangkan model

pengenalan ekspresi wajah yang lebih efisien. Model pengenalan ekspresi wajah

ini berguna dalam model healthcare systems, social marketing, targeted

advertise- ments, music industry, school counselling systems dan deteksi

kebohongan (Nadhir et al., 2021).

9
10

Facial Expression Recognition (FER) atau Ekspresi wajah merupakan cara

yang efektif untuk mengenali emosi seseorang. Ekspresi wajah sangat penting

untuk komunikasi sehari-hari, karena mereka menyampaikan emosi dan perasaan

non-verbal. Dengan hanya 43 otot wajah yang berbeda, manusia dapat membuat

6.000 hingga 10.000 ekspresi. Pada tahun 1872, Charles Darwin berhipotesis

bahwa manusia telah berevolusi ekspresi wajah dari nenek moyang hewan. Lebih

jauh, ekspresi tertentu bersifat universal lintas budaya, meskipun ada perbedaan

ras, bahasa dan perbedaan warna kulit. Pada akhir abad ke-20, Ekman dan Friesen

mengkonfirmasi teori Darwin dan mengklasifikasikan enam ekspresi wajah

universal: senang, takut, terkejut, jijik, sedih, dan marah (Nadhir et al., 2021).

Pada Gambar 2.1 dapat dilihat bahwa strategi pipeline secara umum untuk

pembuatan model pengenalan ekspresi wajah menggunakan algoritma machine

learning khususnyya Support Vector Machine (SVM). Di mana komputer akan

melakukan preprocessing untuk mendeteksi wajah, kemudian mendeteksi ekspresi

wajah dari gambar. Proses feature extraction dilakukan untuk mencari pola dalam

gambar. Setelah itu, mesin akan melakukan klasifikasi menggunakan SVM,

Artificial Neural Network (ANN).

Gambar 2.1 Pipeline Secara Umun Model Pengenalan Ekspresi wajah (Rizwan
Ahmed Khan, 2013).
11

2.2 Gambaran Arsitektur Convolutional Neural Network

(CNN)

Analogi dari arsitektur Convolutional Neural Network (CNN) adalah

seperti pola aktifitas neuron pada otak manusia yang saling terhubung antar

neuron cara kerja ini diilhami oleh visual cortex. Dimana setiap neuron akan

merespon setiap rangsangan dengan batas bidang visual yang dikenali sebagai

bidang reseptif. Dari kumpulan bidang tersebut berupa tupang tindih berguna

menutupi seluruh area visual.

Dalam model arsitektur CNN proses feature learning sangat bergantung

pada kedalaman suatu gambar. Semakin dalam suatu gambar maka semakin

banyak mesin melakukan ekstraksi yang didapatkan sehingga informasi berupa

pola yang di dapat akan semakin jelas terbentuk. Nilai dari pola berbentuk value

inilah yang nantinya akan dikonversi menjadi vektor dan kemudian masuk pada

tahap klasifikasi (Li & Zhang, 2018). Pada proses classifier ini model ConvNets

bekerja dalam melakukan tugas klasifikasi objek berdasarkan kelasnya.

Pada dasarnya berbagai arsitektur model CNN mengikuti arsitektur yang

sama, pada Gambar 2.1, diilustrasikan menggunakan gambar sebagai input

kemudian pada mesin model CNN melakukan operasi convolution, operasi

pooling, diikuti oleh sejumlah layer yang terhubung sepenuhnya (fully connected

layer).
12

Gambar 2.2 Arsitektur Convolutional Neural Network (Islam Nur Alam, 2020).
Berdasarkan Gambar 2.2, arsitektur dari algoritma CNN dibagi menjadi 2

tahapan proses. Pada proses feature learning, secara umum ada 3 lapisan proses

ekstraksi fitur. Lapisan-lapisan ini sering disebut dengan covolution layer,

activation dan pooling layer. Lapisan-lapisan ini akan melakukan operasi

matematika untuk membentuk kedalaman data agar mendapatkan pola secara

spesifik. Ketiga layer tersebut memiliki urutan proses yang tidak harus selalu

sama, dalam artian prosesnya bisa dimodifikasi sesuai dengan kebutuhan. Tapi

umumnya proses feature learning ini diawali dengan melakukan proses konvolusi

antara matriks input dengan kernel ukuran tertentu kemudian dilanjutkan oleh

filter untuk mendapatkan informasi dari gambar sehingga dihasilkan feature map

proses akan berlanjut sesuai kedalaman layer model CNN yang ditentukan.

Dengan menggunakan gambar grayscale sebagai nilai input, CNN

membatasi arsitektur dengan cara yang lebih sederhana untuk diterapkan. Secara

lebih khusus, layer-layer model CNN mempunyai neuron yang saling yang mana

tersusun dalam ruang tiga dimensi yaitu: Lebar (W), Tinggi (H), Kedalaman

(D). Kedalaman arsitektur CNN pada tiga dimensi volume aktivasi, bukan
13

kedalaman dari jaringan neural penuh, yang dapat merujuk pada jumlah total layer

dalam jaringan.

Algoritma CNN memanfaatkan proses konvolusi dengan mengalikan

sebuah filter atau kernel konvolusi (filter) berukuran tertentu sebuah inputan

berupa gambar. Komputer mendapatkan informasi representatif baru dari hasil

perkalian gambar wajah berupa citra abu-abu dengan channel satu dengan filter

yang digunakan. Sesuai dengan arsitektur model pada Gambar 2.3.

Gambar 2.3 Urutan Lapisan CNN.

2.3 CNN’s Layer

Layer-layer yang sangat penting dalam membangun artsitektur

Convolutional Neural Network (CNN) sebagai berikut: Convolutional Layers

(CONV), ReLU, Pooling Layer (POOL) dan Fully Connected Layer (FC).

2.3.1 Convolutional Layer

Convolutional layer merupakan Lapisan terpenting dalam lapisan ini.

Seperti namanya, lapisan konvolusional ini terdiri dari blok bangunan dasar yang

disebut konvolusi. Terapkan konvolusi ke sebagian kecil gambar, buat sampel

nilai piksel di area itu, lalu ubah menjadi satu piksel. Menerapkan ke setiap area

piksel pada gambar untuk menghasilkan gambar baru yang disebut feature maps.
14

Idenya adalah bahwa piksel dalam gambar baru menyertakan informasi tentang

piksel sekitarnya untuk mencerminkan seberapa baik fitur tersebut diekspresikan

di area tersebut. Konvolusi memiliki dua sifat penting yaitu size dan step size.

Konvolusi berikut diterapkan pada gambar 3×3 dan langkah 1, yang memiliki

ukuran 3×3 karena berjalan pada kisi 3×3 piksel. Ukuran langkahnya adalah 1

karena jarak antar daerah yang diterapkan konvolusi adalah 1. Dengan kata lain,

pra-konvolusinya adalah 1 per suku. Ukuran dan ukuran langkah konvolusi

menentukan ukuran gambar keluaran. Misalnya, lakukan konvolusi 3×3 dengan

langkah 1 untuk mengubah gambar 5×5 menjadi gambar 3×3. Pertanyaan yang

muncul adalah bagaimana konvolusi mengubah grid piksel menjadi satu piksel

(Indolia et al., 2018). pada dasarnya melewati grid piksel melalui perceptron,

dengan kata lain, mendapatkan jumlah piksel input yang dibobot. Bagian kanan

bawah piksel menunjukkan bobot yang diterapkan ke piksel. Pada konvolusi

berikut, tidak ada bias (atau offset), tetapi seperti halnya perceptron, konvolusi

biasanya juga memiliki output dari konvolusi yang diterapkan ke input tunggal

akan tetap sebagai piksel tunggal, dan output dari konvolusi yang diterapkan ke

seluruh gambar 3 dimensi akan menjadi gambar 2 dimensi.

Kita mungkin berpikir bahwa ini berarti gambar kehilangan kedalaman,

padahal sebenarnya tidak. Secara teoritis ketika gambar melewati lapisan

konvolusional, kedalaman biasanya meningkat. setiap lapisan konvolusi tidak

diterapkan konvolusi ke gambar. namun akan menghasilkan beberapa keluaran 2D

untuk setiap konvolusi, yang ditumpuk bersama untuk menghasilkan gambar 3D

baru. Oleh karena itu, kedalaman keluaran dari lapisan konvolusional adalah

jumlah konvolusi yang diterapkan (Indolia et al., 2018).


15

Gambar 2.4 Visualisasi Input dan Filter pada Convolutional Neural Network
(CNN).
Dari visualisasi Gambar 2.4 digambarkan di sebelah kiri merupakan input

dari convolutional layer dengan ukuran 7x7. Sedangkan di sebelah kanan

merupakan convolutional filter yang juga disebut sebagai kernel. Ini merupakan

convolutional 3x3 berdasarkan dari filternya. Setelah melakukan perkalian

convolutional layer dengan filter maka akan mendapatkan matriks yang dikenal

sebagai feature map. Operasi convolution dilakukan dengan menggeser filter ini

dalam input.

Berikut ini adalah rumus dari perhitungan convolution untuk gambar 2D

dapat dipetakan ke jendela convolution yang digeser secara berkelanjutan untuk

memperoleh nilai convolution dari input sebuah gambar.

ℎ = 𝐷𝑓(𝑤 ∗ 𝑥) (2.1)
16

Di mana * mewakili operasi convolution, Wi mewakili filter convolution

pada layer, dan f mewakili fungsi aktivasi. Wi D [Wi1; Wi2; WiK], K adalah

nomornya kernel convolution dari layer. Setiap kernel WK i adalah M x M x N

matriks berat dengan M menjadi ukuran jendela dan N menjadi jumlah saluran

input. Pada persamaan (2.1) merupakan penjelasan proses dari formula

convolutional layer.

2.3.2 Active Function Rectified Linear Unit (ReLU)

Setelah model melakukan proses konvolusi dalam convolution layer maka

layer berikutnya adalah ReLU layer. Pada Gambar 2.5 ktivasi ReLU (Rectified

Linear Unit) adalah lapisan aktivasi yang saat ini banyak digunakan untuk model

CNN yang mengaplikasikan fungsi f(x) = max (0, x) yang berarti fungsi ini

melakukan thresholding dengan nilai nol terhadap nilai piksel pada input citra.

Aktivasi ini membuat seluruh nilai piksel yang bernilai kurang dari nol pada suatu

citra akan dijadikan 0 (Indolia et al., 2018). Layer ini meningkatkan sifat non-

linear dari model dan jaringan keseluruhan tanpa mempengaruhi bidang reseptif

dari layer convolutional. Hasil operasi convolution dimasukkan ke dalam fungsi

aktivasi ReLU. Jadi nilai-nilai di feature map akhir sebenarnya bukan jumlah,

tetapi merupakan penerapan fungsi ReLU (Karphaty, n.d.).

Gambar 2.5 ReLU Function (Karpathy, 2018).


17

2.3.3 Pooling Layer

Pooling Layer merupakan lapisan yang menggunakan fungsi dengan

Feature Map sebagai nilai input kemudian mengolahnya dengan berbagai macam

operasi statistik berdasarkan nilai piksel terdekat. Pada model CNN, lapisan

Pooling biasanya disisipkan secara teratur setelah beberapa lapisan konvolusi.

Lapisan Pooling yang dimasukkan di antara lapisan konvolusi secara berturut-

turut dalam arsitektur model CNN dapat secara progresif mengurangi ukuran

volume output pada Feature Map, sehingga mengurangi jumlah parameter dan

perhitungan di jaringan, dan untuk mengurangi Overfitting. Lapisan Pooling

bekerja di setiap tumpukan Feature Map dan mengurangi ukurannya. Bentuk

lapisan Pooling yang paling umum adalah dengan menggunakan filter atau kernel

berukuran 2x2 yang diaplikasikan dengan langkah sebanyak 2 dan kemudian

beroperasi pada setiap irisan dari input. Bentuk seperti ini akan mengurangi

Feature Map hingga 75% dari ukuran aslinya (Indolia et al., 2018). Contoh

operasi Max Pooling ditunjukkan dalam Gambar 2.6.

Gambar 2.6 Max Pooling Sample (Karpathy, 2018).

2.3.4 Fully Connected Layer

Dalam model CNN setelah proses convolution layer dan ReLE kemudian

dilanjutkan downsampling denga max pooling dalam lapisan pooling. Fully


18

Connected layer dengan menggunakan vektor fitur dapat mengklasifikasikan

gambar input ke dalam beberapa kelas berdasarkan pada dataset pelatihan yang

berlabel, fully connected layer berupa vektor angka 1D. Dengan meratakan output

dari layer kumpulan terakhir ke vektor dan itu menjadi input ke fully connected

layer. Sehingga pada saat meratakan merubah isi angka 3D menjadi sebuah vektor

1D.

2.3.5 Softmax Classifier

Softmax Classifier atau biasa disebut dengan fungsi aktivasi softmax

merupakan bentuk lain dari algoritma logistic regression yang dapat digunakan

untuk klasifikasi lebih dari dua kelas. Standar klasifikasi yang umum dilakukan

oleh algoritma Logistic Regression adalah tugas untuk klasifikasi kelas biner.

Pada Softmax bentuk persamaan (2.2) yang muncul adalah sebagai berikut ini.

𝑒 (2.2)
𝑓𝑖(𝑍) =
∑𝑘𝑒
Notasi 𝑓𝑖 menunjukkan hasil fungsi untuk setiap elemen ke-j pada vektor

keluaran kelas. Argumen 𝑍 adalah hipotesis yang diberikan oleh model pelatihan

agar dapat diklasifikasi oleh fungsi softmax. Softmax juga memberikan hasil yang

lebih intuitif dan juga memiliki interpretasi probabilistik yang lebih baik

dibanding algoritma klasifikasi lainnya. Softmax memungkinkan menghitung

probabilitas untuk semua label. Dari label yang ada akan diambil sebuah vektor

nilai bernilai riil dan merubah menjadi vektor dengan nilai antara nol dan satu

yang bila semua dijumlah akan bernilai satu.


19

2.4 Hyperparameters

Hyperparameters merupakan veriabel yang sangat berpengarauh dalam

proses pelatihan model CNN. Variabel hyperparameters dapat ditentukan

sebelum proses pelatihan. Hyperparameters berdasarkan keterhubungannya dapat

ditentukan menjadi hyperparameter yang menentukan model struktur jaringan dan

hyperparameters yang sangat berpengaruh terhadap jaringan pelatihan.

2.4.1 Hyperparamater pada Model Jaringan

Berikut ini adalah hyperparameter yang sangat berpengaruh terhadap

model jaringan sebagai berikut:

1. Jumlah layer tersembunyi dan jumlah informasi dari unit gambar.

Hidden layer adalah layer dalam jaringan neural network yang

tersembunyi di antara input dan output. Hidden layer dapat di analogikan

seperti jika terus menambahkan hidden layer sehingga mencapai nilai

kesalahan yang tidak meningkat saat fase validasi atau testing. Dengan

menambahkan beberapa hidden layer dan meningkatkan unit citra dapat

meningkatkan akurasi model dengan teknik regularisasi. Jika jumlah unit

yang sangat sedikit dapat menyebabkan model mengalami underfitting

yaitu di mana model pelatihan data yang dibuat tidak mewakilkan

keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan

performa yang buruk dalam pelatihan data.

2. Dropout

Dropout adalah teknik regularisasi untuk meningkatkan akurasi validasi

dengan menghindari overfitting, di mana sebuah model memiliki nilai


20

akurasi yang tinggi dan loss yang rendah selama pelatihan tetapi berfungsi

sangat buruk ketika model memprediksi data baru. Sehingga dengan

dropout model dapat meningkatkan kekuatan generalisasi.

- Nilai dropout biasa digunakan antara rentang 20%-50% dari neuron,

dengan menetapkan awal dropout 20% akan menghasilkan titik awal yang

baik. Dengan probabilitas jika dropout terlalu rendah memiliki dampak

terhadap model minimal dan memberikan nilai yang terlalu tinggi

menyebabkan model under-learning oleh jaringan.

- Memperbesar jaringan. Performa dropout akan lebih baik jika diterapkan

pada jaringan yang lebih besar, ini dikarenakan memberikan model lebih

banyak kesempatan dalam belajar representasi secara independen.

3. Network Weight Initialization

Menggunakan inisialisasi bobot jaringan idealnya menggunakan berat

yang berbeda sesuai dengan activation fungtion yang digunakan pada

setiap layer dalam model CNN.

2.4.2 Hyperparameter pada Proses Training

Berikut ini adalah hyperparameter yang sangat berpengaruh dalam hal

proses training model.

1. Learning Rate

Merupakan salah satu parameter proses training berjalan dalam sebuah

model. Bekerja dengan mengoreksi nilai koreksi bobot ketika proses

training berjalan. Rentang dari parameter learning rate adalah 0

sampai 1. Ketika nilai learning rate kecil maka proses training

berjalan lambat tapi memperbaharui informasi dengan cara yang halus.


21

Semakin tinggi nilai learning rate maka proses training berjalan cepat

begitu juga dengan sebaliknya.

2. Momentum

Momentum bertujuan untuk mempercepat proses learning rate

membantu untuk mengetahui arah langkah selanjutnya dengan

mendapatkan pengetahuan dari langkah-langkah sebelumnya. Metode

ini ditambahkan pada gradient descent bertujuan mencegah optimasi

berhenti di local minimum.

3. Epoch

Merupakan hyperparameter ketika model dalam proses training di

mana menentukan berapa kali model algortima pembelajaran akan

bekerja mengolah seluruh dataset training. Satu epoch berarti bahwa

setiap sampel dalam dataset training memiliki kesempatan untuk

memperbarui parameter model internalnya.

4. Batch Size

Termasuk dalam dalam hyperparameter training batchsize merupakan

sub sampel yang diberikan ke sebuah jaringan setelah pembaharuan

terjadi. Secara default untuk ukuran dalam proses fitting 32. Ukuran

batch yang dapat digunakan 64, 128, 256, dan seterusnya.

Secara umum ada empat hyperameters yang umum digunakan dalam

bekerja ketika melakukan proses training sedang berlangsung yaitu

sebagai berikut:

1. Ukuran filter/kernel: umumnya dibanyak contoh filter menggunakan

ukuran 3x3, 5x5, dan 7x7 juga bisa semuanya tergantung dengan aplikasi
22

atau jaringan yang digunakan. Filter yang dimaksud adalah filter pada 3D

dan memiliki dimensi kedalaman (depth) juga, tetapi karena kedalaman

filter pada layer tertentu sama dengan kedalaman inputnya, sehingga

kedalaman terkadang diabaikan.

2. Jumlah filter/kernel: ini merupakan parameter yang mempunyai banyak

variabel, umumnya banyak digunakan dalam rentang 32 dan 1024.

Menggunakan lebih banyak filter akan menghasilkan model lebih kuat,

tetapi meningkatkan risiko model mengalami overfitting karena

peningkatan jumlah parameter. Umumnya menentukan kernel dimulai

filter kecil pada layer awal, dan semakin bertambah jumlahnya ketika

masuk lebih dalam ke jaringan.

3. Stride: merupakan parameter yang menentukan berapa jumlah pergeseran

filter/kernel yang akan digunakan. Jika stride bernilai 1, maka filter akan

bergeser sebanyak 1 piksel secara horizontal ke kanan hingga selesai,

kemudian baru dilanjutkan bergeser lagi secara vertikal ke bawah.

4. Padding: merupakan parameter yang digunakan untuk menambah

informasi pada feature map setelah proses convolution dalam layer CNN.

Di mana dimensi output dapat dimanipulasi agar memiliki dimensi yang

sama dengan input atau setidaknya tidak berkurang secara drastis.

Sehingga bisa menggunakan convolution layer yang lebih dalam dan

mendapatkan lebih banyak ekstraksi dari input.

2.4.3 Loss Function

Sebuah fungsi yang digunakan untuk mengukur perbedaan antara hasil yang

diprediksi dari fungsi persamaan (2.3) sebagai dan label input.


23

1 (2.3)
𝐸(𝑊) = − [𝑦 log 𝑃(𝑥𝑖 = 𝑘)) + (1 − 𝑦 ) 𝑙𝑜𝑔(1 − 𝑃(𝑥
𝑛
= 𝑘))]
di mana W adalah bobot matriks convolutional dan layer yang terhubung

penuh, n menunjukkan jumlah sampel training, i adalah indeks sampel training,

dan k adalah indeks kelas. Jika sampel dengan milik kelas k, yik D 1; selain itu

yik D 0. P (xi D k) adalah probabilitas input xi milik kelas k yang diprediksi oleh

model, yaitu fungsi dari parameter W.

𝜕𝐸(𝑊) (2.4)
𝑤 =𝑤 − 𝛼( )
𝜕𝑊

di mana α adalah tingkat pembelajaran, yang merupakan parameter yang

sangat penting yang menentukan ukuran langkah pembelajaran. K adalah indeks

kelas, artinya sama dengan persamaan (2.4).

2.5 Arsitektur Convolutional Neural Network (CNN)

Dalam perkembangan sejarah algoritma Convolutional Neural Network

(CNN) berawal dari LeNet pada tahun 1990 dalam sebuah karya yang sangat

inovatif oleh Yann LeCun (LeCun & Bengio, 1995) yang mana merupakan

banyak hasil dari pengulangan neural network di mana telah sukses sejak tahun

1988. LeNet mendorong perkembangan fundamental teknik dengan arsitekturnya

CNN bernaman LexNet, di mana saat itu digunakan untuk membuat aplikasi

pengenalan karakter.

Pada abad ke-20 ini arsitektur CNN mulai banyak dikembangkan dengan

dukungan GPU yang memumpuni di abad ini. Perkembangan arsitektur CNN

dimulai dari AlexNet pada tahun 2012 dan terus bertumbuh hingga sekarang. Tim
24

google brain membuat cara cerdas untuk meningkatkan performa algoritma

Convolutional Neural Network sehingga Sekarang disebut EfficientNet Google

AI.

2.5.1 EfficientNet

Dalam penelitiannya Mingxing Tan & Quoc V. Le mempelajari

penskalaan arsitektur Convolutional Neural Network atau ConvNet secara

mendalam dan mengidentifikasi bahwa menyeimbangkan lebar, kedalaman, dan

resolusi jaringan. Kedalaman di sini berarti menambahkan lapisan tambahan di

antara atau di atas model konvolusional dalam yang sudah tersedia. Dengan cara

ini akan menyebabkan model ConvNet membutuhkan lebih banyak daya

komputasi dan sumber daya. Selain itu, setelah kedalaman tertentu, bobot

cenderung jenuh tanpa perbaikan lebih lanjut dalam model (Tan & Le, 2019).

Oleh karena itu, untuk mengatasi masalah ini Mingxing Tan & Quoc V. Le

mengusulkan metode yang disebut EfficientNet yang meningkatkan akurasi model

dan kebutuhan komputasi dengan menskalakan secara efisien ke segala arah

seperti tidak hanya kedalaman, tetapi juga lebar dan resolusi. Idealnya

menyebabkan keseimbangan optimal untuk setiap dimensi relatif terhadap yang

lain. Dengan cara ini, EfficientNet tidak memerlukan kebutuhan komputasi

sebanyak yang dibutuhkan CNN konvensional, sehingga menghasilkan akurasi

yang lebih baik.

Model baseline yang baik diperlukan untuk lebih membangun model di

atasnya yang memiliki performa lebih baik. Di EfficientNet, model dasar

EfficientNet-B0 dibangun menggunakan konvolusi bottleneck terbalik (MBConv)


25

yang mirip dengan MobileNetV2 dan MnasNet. Perbaikan pada model baseline

dilakukan nanti untuk mendapatkan keluarga EfficientNet.

Penjelasan singkat tentang apa itu MBConv dan blok bangunan lain untuk

EfficientNet tersebut. Blok MBConv tidak lain adalah blok Inverted Residual

yang awalnya diusulkan dalam arsitektur CNN MobineNetV2. Dalam blok

Gambar 2.7 Arsitektur EfficientNet-B0 (Blog AI Google, 2020).


residual normal, aliran jaringan biasanya berubah dari struktur lebar ke sempit ke

struktur lebar sehubungan dengan jumlah saluran. Lapisan terakhir dibawa

kembali ke bentuk input yang akan ditambahkan (tujuan blok residual adalah

untuk mencegah hilangnya gradien) Dalam blok residual terbalik, lapisan-

lapisannya berubah dari sempit ke lebar menjadi sempit yang merupakan

kebalikan dari blok residual. Jadi awalnya mengambil masukan berdimensi rendah

dan meluaskannya dengan lapisan konvolusional 1 x 1, diikuti dengan konvolusi

bijak kedalaman 3 x 3 dan kembali ke bentuk masukan menggunakan lapisan

konvolusional 1 x 1. Alasan di balik penggunaan blok Inverted Residual adalah

bahwa, dalam blok residual asli, lapisan ekspansi di antara hanyalah detail

implementasi belaka. Informasi tersebut masih dapat dikaitkan pada dimensi

rendah sehingga kebutuhan komputasi dan waktu berjalan lebih sedikit. Arsitektur

dasar EfficientNet terdiri dari lapisan dalam blok MBConv seperti yang

ditunjukkan pada Gambar 2.7 di mana EfficientNet B1 hingga B7 diperoleh

dengan menggunakan koefisien skala yang berbeda.


26

MobileNet-V2 Dalam blok residual normal, aliran jaringan biasanya

berubah dari struktur lebar ke sempit ke struktur lebar sehubungan dengan jumlah

saluran. Lapisan terakhir dibawa kembali ke bentuk input yang akan ditambahkan.

Tujuan blok residual adalah untuk mencegah hilangnya gradien. Alasan di balik

penggunaan blok Inverted Residual adalah bahwa, dalam blok residual asli,

lapisan ekspansi di antara hanyalah detail implementasi belaka. Informasi tersebut

masih dapat dikaitkan pada dimensi rendah sehingga kebutuhan komputasi dan

waktu berjalan lebih sedikit. Arsitektur dasar EfficientNet terdiri dari lapisan

dalam blok MBConv seperti yang ditunjukkan pada Gambar 2.8.

Gambar 2.8 Arsitektur EfficientNet (Feature Extractor).


Dimana Convolutional Neural Network (CNN) yang terbungkus dalam

arsitektur pre-trained mempunyai formula atau persamaan (2.5) didefinisikan

sebagai:

⨀∙ (2.5)
𝒩= … ℱ (𝑋〈 , , 〉)

Di mana FLi menunjukkan lapisan Fi diulang Li dalam tahap i, (Hi, Wi,

Ci) menunjukkan tensor X dari lapisan i. Penskalaan model mencoba memperluas

panjang jaringan (Li), lebar (Ci), dan / atau resolusi (Hi , Wi) tanpa mengubah Fi

yang telah ditentukan sebelumnya di jaringan baseline. Dengan memperbaiki Fi ,


27

penskalaan model menyederhanakan masalah desain untuk batasan sumber daya

baru, tetapi masih tetap merupakan ruang desain yang besar untuk mengeksplorasi

Li , Ci ,Hi ,Wi yang berbeda untuk setiap lapisan.

, ,𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝒩(𝑑, 𝑤, 𝑟) (2.6)



𝑑
𝑠. 𝑡 𝒩(𝑑, 𝑤, 𝑟) = ℱ 𝑖. 𝐿𝑖 𝑋〈𝐻𝑖,𝑊𝑖,𝐶𝑖〉

𝑀𝑒𝑚𝑜𝑟𝑦(𝒩) ≤ 𝑡𝑎𝑟𝑔𝑒𝑡_𝑚𝑒𝑚𝑜𝑟𝑦
𝐹𝐿𝑂𝑃(𝒩) ≤ 𝑡𝑎𝑟𝑔𝑒𝑡_𝑓𝑙𝑜𝑝𝑠

Pada persamaan (2.6) di mana w, d , r adalah koefisien untuk menskalakan

lebar, kedalaman, dan resolusi jaringan. Simbol dengan kepala adalah parameter

yang telah ditentukan di jaringan baseline. (b) - Kedalaman (d): Menskalakan

kedalaman jaringan adalah cara paling umum yang digunakan oleh banyak

ConvNets. Namun, menskalakan model dasar dengan koefisien kedalaman d yang

berbeda, yang selanjutnya menunjukkan pengembalian akurasi yang semakin

berkurang untuk ConvNets yang sangat dalam. (c) - Lebar (w) : Penskalaan lebar

jaringan biasanya digunakan untuk model ukuran kecil. Jaringan yang lebih luas

cenderung dapat menangkap fitur yang lebih halus dan lebih mudah untuk dilatih.

Namun, jaringan yang sangat luas tetapi dangkal cenderung mengalami kesulitan

dalam menangkap fitur tingkat yang lebih tinggi. (d) - Resolusi (r): Dengan

gambar input resolusi lebih tinggi, ConvNets berpotensi menangkap pola yang

lebih halus. Resolusi yang lebih tinggi meningkatkan akurasi, tetapi perolehan

akurasi berkurang untuk resolusi yang sangat tinggi. Secara intuitif, untuk gambar

beresolusi lebih tinggi, meningkatkan kedalaman jaringan akan menghasilkan

bidang reseptif yang lebih besar yang dapat membantu menangkap fitur serupa

yang menyertakan lebih banyak piksel dalam gambar yang lebih besar. Sejalan
28

dengan itu, kami juga harus meningkatkan lebar jaringan saat resolusinya lebih

tinggi untuk menangkap pola yang lebih halus.

Penskalaan tidak mengubah operasi lapisan, oleh karena itu lebih baik

untuk terlebih dahulu memiliki jaringan dasar yang baik dan kemudian

menskalakannya sepanjang dimensi yang berbeda menggunakan penskalaan

gabungan yang diusulkan. Mingxing Tan dan Quoc V. Le memperoleh jaringan

dasar mereka dengan melakukan Neural Architecture Search (NAS) yang

mengoptimalkan akurasi dan Floating Point Operation Per Second (FLOPS) (Tan

& Le, 2019). Arsitekturnya mirip dengan M-NASNet karena telah ditemukan

menggunakan ruang pencarian yang serupa. Lapisan / blok jaringan seperti yang

ditunjukkan pada Tabel 2.1 Jaringan baseline EfficientNet-B0:

Tabel 2.1 Arsitektur jaringan baseline EfficientNet-B0

Stage Operator ℱ Resolution #Channels #Layer


𝑖 ℋ𝑖 × 𝒲𝑖 𝒞𝑖 ℒ𝑖
1 Conv3x3 224 × 224 32 1
2 MBConv1, k3x3 112 × 112 16 1
3 MBConv6, k3x3 112 × 112 24 2
4 MBConv6, k5x5 56 × 56 40 2
5 MBConv6, k3x3 28 × 28 80 3
6 MBConv6, k5x5 28 × 28 112 3
7 MBConv6, k5x5 14 × 14 192 4
8 MBConv6, k3x3 14 × 14 320 1
9 Conv1x1 & Pooling & 7×7 1280 1
FC

Model baseline yang baik diperlukan untuk lebih membangun model di atasnya

yang memiliki performa lebih baik. Di EfficientNet, model dasar EfficientNet-B0

dibangun menggunakan konvolusi bottleneck terbalik (MBConv) yang mirip

dengan MobileNetV2 dan MnasNet.


29

2.5.2 VGG-19

VGG-19 adalah arsitektur jaringan yang merupakan bentuk dari variasi VGG-

16 yang diciptakan oleh Visual Geometry Group (VGG) di Universitas Oxford

pada tahun 2014 dan menjadi terkenal kerena mendapatkan peforma yang baik

dalam beberapa kasus klasifikasi gambar. Model ini memiliki 16 lapisan

konvolusi dengan filter 3×3, kemudian terdapat 5 pooling layer yang

menggunakan MaxPooling dengan pool size sebesar 2×2 dan 3 fully connected

layer denngan nilai 4096, 4096, 1000 lalu size image untuk memiliki ukuran

224×224 piksel. Detail struktur model VGG19 dapat dilihat pada Gambar 2.9.

Gambar 2.9 Struktur Model VGG-19.

2.5.3 VGG-16

Pada modifikasi VGG-16, arsitektur yang digunakan berjumlah 10 layer.

Seperti pada Tabel 2.2 ukuran filter yang digunakan adalah 3×3 dan filter pada
30

max pooling layer adalah 2×2. Untuk stride yang digunakan adalah 1 pada layer

convolution dan 2 pada layer max polling. Untuk jumlah kernel pada masing-

masing layer dikurangi yaitu pada layer 1 dan 2 menggunakan jumlah 16 sehingga

maxpooling-nya berjumlah 16. Pada layer 3 dan 4 menggunakan jumlah 32, dan

pada layer 5, 6, 7 menggunakan jumlah 64. Hasil dari convolution layer kemudian

akan di klasifikasikan menggunakan fully connected layer sebanyak 2 buah layer

yang masing-masing layernya memiliki jumlah neuron 1000 dan 700.

Tabel 2.2 Struktur Model VGG-16.

Name Filter Size Stride Jumlah


Input
Convolution 1 3×3 1 16
Convolution 2 3×3 1 16
Maxpool 1 2×2 2 16
Convolution 3 3×3 1 32
Convolution 4 3×3 1 32
Maxpool 2 2×2 2 32
Convolution 5 3×3 1 64
Convolution 6 3×3 1 64
Convolution 7 3×3 1 64
Maxpool 3 2×2 2 64
FC 1 1000
FC 2 700
Output 5

2.5.4 MobileNet-V2

MobileNets, merupakan salah satu arsitektur convolutional neural network

(CNN) yang dapat digunakan untuk mengatasi kebutuhan akan computing resource

berlebih. Seperti namanya, Mobile, para peneliti dari Google membuat arsitektur

CNN yang dapat digunakan untuk ponsel. Perbedaan mendasar antara arsitektur

MobileNet dan arsitektur CNN pada umumnya adalah penggunaan lapisan atau

layer konvolusi dengan ketebalan filter yang sesuai dengan ketebalan dari input
31

image. MobileNet membagi konvolusi menjadi depthwise convolution dan

pointwise convolution Arsitektur MobileNet sendiri dipaparkan pada Gambar 2.10

Dalam makalah yang berjudul MobileNets: Efficient Convolutional Neural

Networks for Mobile Vision Applications.

Gambar 2.10 Konvolusi standar (a) dibagi menjadi dua lapisan: depthwise
convolution (b) dan pointwise convolution (c) untuk membuat filter terpisah
secara mendalam (depthwise) (Mark Sandler, 2019).

2.5.5 ResNet-152

Residual neural network atau yang biasa disebut sebagai Resnet adalah salah

satu jenis arsitektur yang cukup populer, arsitektur ini dibuat oleh Kaiming He et

al. Arsitektur ini cukup revolusioner pada saat itu karena arsitektur ini menjadi
32

state-of-the-art pada saat itu tidak hanya dalam klasifikasi, namun dalam semua

kategori termasuk object detection, dan semantic segmentation. Arsitektur CNN

yang memiliki kedalaman tinggi adalah salah satu hal penting dalam membangun

model CNN yang memiliki performa yang baik, namun model CNN yang memiliki

kedalaman yang tinggi juga memiliki masalah, yaitu vanishing gradient problem,

yaitu suatu keadaan di mana hasil gradien yang dipelajari oleh model, tidak dapat

mencapai layer pertama karena mengalami perkalian berkali-kali sehingga layer

pertama tidak menerima gradien apa-apa, atau secara singkatnya, hal ini

menyebabkan suatu CNN tidak dapat belajar dari error yang telah dikalkulasi.

Resnet jenis arsitektur 152 layer

Hal yang diusung oleh Kaiming He et al. pada saat itu adalah dengan

menggunakan sesuatu yang bernama residual block, blok ini adalah blok yang ada

pada tiap lapis arsitektur CNN Resnet dan menjadi fundamental dari arsitektur

tersebut, gambaran dari blok ini dapat dilihat pada Gambar 2.11.

Gambar 2.11 Blok Residual Network (Kaiming He, 2016).

2.5.6 Inception-V4

Inception-v4 adalah varian Inception murni tanpa koneksi residual dengan

kinerja pengenalan citra yang kurang lebih sama seperti Inception-ResNet-v2.


33

Inception-v4 memiliki arsitektur sederhana yang mempunyai lebih banyak modul

seragam daripada Inception-v3.

Arsitektur Inception merupakan arsitektur Convolutional Neural Network

(CNN) yang sangat kompleks karena direkayasa dengan cukup berat. Arsitektur ini

menggunakan banyak teknik untuk meningkatkan kinerja; baik dari segi kecepatan

dan akurasi. Versi populernya adalah Inception-v1, Inception-v2, Inception-v3,

Inception-v4, dan Inception-ResNet (Szegedy C. I., 2016). Inception-v4 adalah

varian Inception murni tanpa koneksi residual dengan kinerja pengenalan citra

yang kurang lebih sama seperti Inception-ResNet-v2. Inception-v4 memiliki

arsitektur sederhana yang mempunyai lebih banyak modul seragam daripada

Inception-v3. Inception-v4 memiliki 3 modul yang sekilas terlihat seperti modul

pada Inception-v2.

2.5.7 DenseNet-201

Pada Gambar 2.12 Convolutional Neural Network (CNN) dirancang untuk

memproses suatu data yang ada dalam bentuk banyak array, contohnya gambar

warna yang terdiri dari 2D array yang mengandung piksel dalam tiga macam

warna yaitu Red, Green, dan Blue seperti yang diilustrasikan pada gambar 1. Ada

berbagai macam bentuk CNN adalah 1D untuk sinyal dan urutan biasanya

digunakan untuk bahasa, 2D untuk gambar atau suara; dan 3D untuk video atau

gambar volumetric Dense Convolutional Network (DenseNet), yang

menghubungkan setiap lapisan/blok ke setiap lapisan/blok lainnya dengan cara

umpan maju. Sedangkan jaringan konvolusional tradisional dengan L lapisan

memiliki koneksi L - satu antara setiap lapisan dan lapisan berikutnya jaringan

memiliki koneksi langsung L (L + 1) / 2. DenseNet memiliki beberapa


34

keunggulan menarik: meringankan masalah gradien-gradien, memperkuat

penyebaran fitur, mendorong penggunaan kembali fitur, dan secara substansial

mengurangi jumlah parameter.

Gambar 2.12 Arsitektur DenseNet (Chenquan Gan, 2018).

2.6 Tinjauan Pustaka

Beberapa tahun ini state-of-the-art penelitian dalam domain pengenalan

ekspresi wajah banyak bermunculan dan sedang hangat-hangatnya dibahas

khususnya menggunakan algoritma CNN dan beberapa arsitektur CNN. berbasis

arsitektur CNN membuat bidang computer vision dan image processing menjadi

begitu power-full dalam hal model pengenalan ekspresi wajah berbasis gambar.

Oleh karena itu, banyak peneliti berlomba-lomba dalam membuat model dari

Arsitektur CNN yang efektif dan efisien dalam hal komputasi dan akurasi yang

tinggi.

2.6.1 Penelitian Terkait

Penelitian dengan topik untuk pengenalan ekspresi wajah dengan model

algoritma Convolutional Neural Network (CNN) paling umum digunakan.


35

Dengan menggunakan dataset terkenal yaitu FER2013, CK+, JAFFE dengan

menggunakan beberapa model pre-trained terkenal seperti (VGG-16, VGG-19,

ResNet-18, ResNet-34, ResNet-50, ResNet-152, Inception-v3 dan DenseNet-161).

Dalam sebuah penelitian pengenalan ekspresi wajah menggunakan

algoritma CNN dengan model pre-trained tipe VGG-16 dengan teknik transfer

learning dengan mempertimbangkan konsep pembelajaran transfer di mana fitur

yang dipelajari dari gambar resolusi tinggi dari kumpulan data besar dari

ImageNet dapat digunakan untuk melatih model kumpulan data yang relatif kecil

tanpa kehilangan kemampuan generalisasi. (Atabansi et al., 2021) menggunakan

arsitektur jaringan VGG-16 pre-trained dengan teknik pembelajaran transfer telah

dilatih dan divalidasi pada dataset Oulu-CASIA NIR yang terdiri dari enam

ekspresi wajah yang berbeda, dan akurasi uji rata-rata 98,11% tercapai.

Dalam penelitian mendalami penerapan model pengenalan ekspresi wajah

dengan memanfaatkan artificial neural network (ANN) dan lebih khusus lagi

Convolutional Neural Network (CNN). (Pune, 2021) Dalam peneliannya

menerapkan konsep dasar dan menyempurnakan hyperparameternya dan

bereksperimen dengan berbagai metode pengoptimalan dan menunjukkan state-

of-the-art akurasi jaringan tunggal sebesar 70,10% pada dataset FER2013 tanpa

menggunakan data pelatihan tambahan. (Pune, 2021) Menyusun arsitektur CNN

dengan kostum pada dataset FER2013 ini termasuk menerapkan teknik

augmentasi gambar diikuti dengan fine tuning arsitektur. (Pune, 2021)

Memanfaatkan ide-ide dasar jaringan saraf khususnya CNN, seperti dropouts,

batch normalization, padding, pooling, strides, kernel size, activation function,

weight initialization techniques, various optimizers, padding and pooling.


36

Dalam makalah ini peneliti mengembangkan model Facial Expression

Recognition (FER) penelitian mengusulkan pemodelan sangat Deep CNN

(DCNN) melalui teknik transfer learning di mana model DCNN pre-trained

diadopsi dengan mengganti lapisan atas padatnya yang kompatibel dengan label

ekspresi wajah kemudian model di fine-tune dengan data emosi wajah (Akhand et

al., 2021). Peneliti menghadirkan solusi Strategi pipeline baru, di mana pelatihan

lapisan padat diikuti dengan menyetel masing-masing blok DCNN yang telah

dilatih sebelumnya secara berurutan. Model Facial Expression Recognition (FER)

yang diusulkan diverifikasi pada model DCNN pre-trained yang berbeda dengan

menggunakan datasets dari gambar wajah KDEF dan JAFFE. Metode yang

diusulkan mencapai akurasi yang luar biasa pada kedua dataset dengan model

yang telah dilatih sebelumnya. Akurasi Facial Expression Recognition (FER)

terbaik yang dicapai oleh DenseNet-161 pada set uji KDEF dan JAFFE masing-

masing adalah 96,51% dan 99,52% (Akhand et al., 2021).

Dalam penelitian yang bertujuan untuk meningkatkan jaringan

FaceLiveNet untuk Facial Expression Recognition (FER) kemudian mengusulkan

kerangka kerja Dense_FaceLiveNet. Selama meneliti (Hung et al., 2019)

menggunakan Dense_FaceLiveNet untuk dua fase pembelajaran transfer. Pertama,

dari data yang relatif sederhana transfer model pengenalan emosi dasar dari

dataset JAFFE dan KDEF ke dataset emosi dasar FER2013 dan diperoleh akurasi

sebesar 70,02%. Kedua, dengan menggunakan model pengenalan emosi dasar dari

dataset FER2013 kemudian di transfer ke model pembelajaran pengenalan emosi,

tingkat akurasi uji mencapai 91,93%, yaitu 12,9% lebih tinggi dari tingkat akurasi

79,03% tanpa menggunakan model pembelajaran transfer, yang membuktikan


37

bahwa penggunaan solusi pembelajaran transfer secara efektif dapat

meningkatkan akurasi pengenalan model pembelajaran pengenalan emosi (Hung

et al., 2019). Selain itu, untuk menguji kemampuan generalisasi Model

Pengenalan Emosi Pembelajaran, video yang direkam oleh mahasiswa dari

universitas nasional di Taiwan selama pembelajaran di kelas digunakan sebagai

data uji. Basis data asli dari emosi belajar tidak mempertimbangkan bahwa siswa

akan memiliki pengecualian seperti di atas alis, mata tertutup dan tangan

memegang dagu. Untuk memperbaiki situasi ini, setelah menambahkan basis data

emosi belajar ke gambar pengecualian yang disebutkan di atas, model dibangun

kembali, dan tingkat akurasi pengenalan model adalah 92,42%. Selanjutnya,

setelah menggabungkan semua data citra siswa dengan database emosi belajar

asli, model dibangun kembali dan diperoleh tingkat akurasi mencapai 84,59%.

Hasil tersebut membuktikan bahwa Model Facial Expression Recognition (FER)

dapat mencapai akurasi pengenalan yang tinggi dengan mengolah gambar yang

tidak dipelajari melalui transfer learning (Hung et al., 2019).

Sebuah makalah yang membahas penelitian tentang pengenalan ekspresi

wajah dengan meneliti dampak metodologi Transfer Learning terhadap model

yang dibuat untuk Facial Expression Recognition (FER). Mengembangkan model

Convolutional Neural Network (CNN) dengan arsitektur tipe VGG dengan

menggunakan kumpulan dataset FER2013 kemudian model dari hasil pelatihan di

evaluasi menggunakan dataset CK+ (Moravčík & Basterrech, 2021). Dalam

penelitian (Moravčík & Basterrech, 2021) mempelajari performa dua arsitektur

CNN, dua arsitektur itu terdiri dari base model dan final model. Base model dibuat

sebagai variasi dari arsitektur standar LetNet-5. Arsitektur yang dievaluasi kedua
38

didasarkan pada VGG. Network arsitektur untuk base model mempunyai tiga

layer konvolusi, 3 x 3 filter, stride 1 dan mempunyai padding dengan ukuran yang

sama. Kemudian Model kedua memiliki empat blok konvolusi, di mana pada

setiap blok terdapat dua convolutional layer diikuti dengan batch normalization.

Teknik max pooling dan dropout juga diterapkan. Saat peneliti mengevaluasi

langsung model melalui kumpulan data CK+, pengklasifikasi yang dikembangkan

mencapai akurasi 69%. Dua pendekatan Transfer Learning dianalisis. Penerapan

metodologi Transfer Learning sangat meningkatkan akurasi dari kira-kira 70%

sampai kira-kira 95% (Moravčík & Basterrech, 2021).

Dalam sebuah penelitian bersama dengan tim Google Brain menghadirkan

solusi yang disebut EfficientNet yang meningkatkan akurasi model dan kebutuhan

komputasi dengan menskalakan secara efisien ke segala arah seperti tidak hanya

kedalaman, tetapi juga lebar dan resolusi. Idealnya menyebabkan keseimbangan

optimal untuk setiap dimensi relatif terhadap yang lain. Dengan cara ini,

EfficientNet tidak memerlukan kebutuhan komputasi sebanyak yang dibutuhkan

model Deep CNN/ConvNets yang dalam pada generasi sebelumnya, sehingga

menghasilkan akurasi yang lebih baik daya komputasi yang efisien (Tan & Le,

2019). Dalam penelitiannya melangkah lebih jauh, menggunakan pencarian

arsitektur saraf untuk merancang jaringan dasar baru dan meningkatkannya untuk

mendapatkan beberapa model, yang disebut EfficientNet, yang mencapai akurasi

dan efisiensi yang jauh lebih baik daripada ConvNets sebelumnya. Secara khusus,

EfficientNet-B7 mencapai akurasi 84,3% top-1 yang canggih di ImageNet,

sementara menjadi 8,4x lebih kecil dan 6,1x lebih cepat dalam inferensi daripada

ConvNet terbaik yang ada. EfficientNet juga dapat mentransfer dengan baik dan
39

mencapai akurasi mutakhir pada dataset CIFAR-100 (91,7%), Bunga (98,8%),

dan 3 set data pembelajaran transfer lainnya, dengan urutan parameter yang lebih

sedikit.

Berbagai penelitian telah dilakukan dalam membuat arsitektur CNN untuk

pengenalan ekspresi wajah dengan pendekatan salah satunya adalah untuk

menyelidiki apakah teknik transfer learning dari kumpulan data ukuran sedang

dan besar untuk meningkatkan kinerja arsitektur lightweight Convutional Neural

Network (CNN). Menggunakan arsitektur CNN berbasis residu yang ringan yang

awalnya digunakan untuk kumpulan data CIFAR untuk menganalisis pengaruh

transfer learning dari lima kumpulan data yang berbeda, termasuk CIFAR10,

CIFAR100, ImageNet32, CINC-10, dan CASIA-WebFace. Dataset FER+ (Facial

Expression Recognition Plus) digunakan untuk mengevaluasi kinerja arsitektur

lightweight CNN. Eksperimen menunjukkan bahwa pengklasifikasi lightweight

Convutional Neural Network (CNN) juga dapat ditingkatkan bahkan ketika

pembelajaran transfer dilakukan dari kumpulan data ukuran menengah

dibandingkan saat melatih pengklasifikasi dari awal (Wikanningrum et al., 2019).

Penelitian ini menggunakan dua arsitektur CNN yang ringan, ResNet-20 dan

ResNet-32, dan meningkatkan kinerja pengklasifikasi melalui pembelajaran

transfer(Wikanningrum et al., 2019). Dalam evaluasi hasil penelitian dalam

penggunaan lightweight CNN untuk penggunaan pengenalan ekspresi wajah

dapat dibandingkan dengan state-of-the-art pada FER+ dataset diperoleh akurasi

single classifier dengan params 0.4 nilai akurasi 83.92% selain itu penggunaan

ensemble classifier menggunakan 0.9 dengan nilai akurasi 84.30%(Wikanningrum

et al., 2019). Pelatihan dalam menggabungkan transfer learning dan konfigurasi


40

weighted ensemble adalah perhatian pekerjaan penelitian ini di masa depan untuk

meningkatkan kinerja classifier. Beberapa dataset ekspresi wajah lainnya juga

menuntut untuk dianalisis menggunakan metode transfer learning menggunakan

arsitektur lightweight Convutional Neural Network (CNN).

Penelitian tentang pengembangan model pengenalan ekspresi wajah

bebasis deep learning terus berlanjut. Pembuatan arsitektur CNN dengan

menggunakan empat layer convolution disertai dengan dua layer untuk lapisan

dalam, di mana setiap layer menggunakan beberapa hyperparameter di lapisan

Convolutional Neural Network (CNN), Seperti MaxPooling, BatchNorm,

menggunakan fungsi aktivasi RELU kemudian DroupOut untuk mengatasi

overfitting. Di mana terdapat dropout sebesar 25% setelah setiap convolution

layer sehingga tidak ada overfitting dalam fase pelatihan (Sharma et al., 2021).

Penelitian ini penulis menggunakan menggunakan dataset ekspresi wajah yang

diberikan oleh Pierre-Luc Carrier dan Aaron Courville dalam makalah mereka.

Kumpulan data ini tersedia di Kaggle [21]. Terdiri dari 35.887 gambar dengan

ekspresi wajah yang berbeda dari banyak orang. kumpulan data terdiri dari 7 label

yang merupakan 7 emosi dasar yang dapat diekspresikan manusia. Fungsi aktivasi

yang digunakan untuk output adalah SoftMax yang juga dikenal sebagai

softargmax atau fungsi eksponensial ternormalisasi. Ini pada dasarnya digunakan

untuk menormalkan output jaringan ke distribusi probabilitas atas output yang

diprediksi kelas (Sharma et al., 2021). Dari model yang peneliti gunakan akurasi

pelatihan yang dicapai adalah 67,5% dan akurasi validasi dicapai adalah 48,3%.

Pengenalan ekspresi wajah (FER) adalah tugas untuk menentukan emosi

seseorang. Dengan kemajuan dalam algoritma Convolutional Neural Network


41

(CNN) akurasi model meningkat. Sebuah peneliti memberikan solusi di mana

Model hybrid CNN dan k-Nearest Neighbor (KNN) dapat meningkatkan akurasi

FER. Penelitian ini penulis menggunakan model CNN-KNN hybrid untuk FER

pada Raspberry Pi 4, di mana menggunakan CNN untuk ekstraksi fitur. kemudian,

K-NN melakukan pengenalan ekspresi (Nadhir et al., 2021). Dengan

menggunakan teknik transfer learning untuk membangun model pengenalan

ekspresi wajah dengan model EfficientNet-Lite. Model hybrid yang di usulkan

menggantikan lapisan Softmax di EfficientNet dengan algoritma KNN. Peneliti

menggabungkan data pelatihan tambahan dari JAFFE dan KDEF dengan set data

pelatihan FER-2013. Model hybrid menggunakan CNN untuk ekstraksi fitur dan

K-NN sebagai classifier dapat meningkatkan akurasi model FER pada dataset

FER-2013. Model CNN-KNN hybrid menghasilkan akurasi 75,3%, peningkatan

0,6% dari model CNN dan peningkatan akurasi 0,1% dibandingkan dengan state-

of-the-art model FER yang canggih seperti CNN dengan VGG (Nadhir et al.,

2021).

Dalam sebuah penelitian membangun model pengenalan ekspresi wajah

(Minaee et al., 2021) mengusulkan pendekatan berdasarkan attentional

convolutional network yang mampu fokus pada bagian penting dari wajah dan

mencapai peningkatan yang signifikan dibandingkan model sebelumnya pada

beberapa kumpulan data, termasuk FER-2013, CK+, FERG, dan JAFFE.

Penelitian ini menggunakan teknik visualisasi yang mampu menemukan daerah

wajah yang penting untuk mendeteksi emosi yang berbeda berdasarkan output

pengklasifikasi. Melalui eksperimen ini menunjukkan bahwa setiap gambar emosi


42

yang berbeda memiliki perbedaan yang sensitif terhadap bagian wajah yang

berbeda (Minaee et al., 2021).

Dalam penelitian ini mengajukan arsitektur model yang diusulkan yaitu

bagian feature extraction terdiri dari fitur dari empat lapisan convolutional,

dengan setiap dua diikuti oleh lapisan max-pooling dan fungsi aktivasi rectified

linear unit (ReLU). Kemudian diikuti oleh lapisan dropout dan dua lapisan fully

connected layers. Transformator spasial (jaringan lokalisasi) terdiri dari dua

lapisan konvolusi (masing-masing diikuti oleh max-pooling dan ReLU) dan dua

lapisan fully connected layers. Setelah meregresi parameter transformasi, input

ditransformasikan ke grid sampling T(θ), menghasilkan data yang dilengkungkan.

Modul transformator spasial pada dasarnya mencoba untuk fokus pada bagian

gambar yang paling relevan dengan memperkirakan sampel di atas wilayah yang

diinginkan. Model ini kemudian dilatih dengan mengoptimalkan loss function

menggunakan stochastic gradient descent dan lebih khusus, pengoptimalan Adam

(Minaee et al., 2021).

Tabel 2.3 Perbandingan Riset Mengenai Model Pengenalan Ekspresi Wajah.


No Publikasi Solusi Dataset Hasil Evaluasi

1. (Atabansi et al., Dengan tekik transfer Oulu-CASIA dataset Oulu-


learning dimana fitur
2021) NIR CASIA NIR
yang dipelajari dari
yang terdiri
gambar resolusi tinggi
dari kumpulan data dari enam
besar dari ImageNet
ekspresi wajah
digunakan untuk
yang berbeda,
melatih model
kumpulan data Oulu-
43

No Publikasi Solusi Dataset Hasil Evaluasi

CASIANIR. dan akurasi uji


menggunakan
rata-rata
arsitektur jaringan
98,11%
VGG-16 pre-trained
2. (Pune, 2021) Menyusun arsitektur FER2013 70.10%

CNN dengan kustom

pada dataset FER2013

ini termasuk

menerapkan teknik

augmentasi gambar

diikuti dengan fine

tuning arsitektur.

3. (Akhand et al., teknik transfer KDEF dan DenseNet-161

2021) learning di mana JAFFE pada set uji

model DCNN pre- KDEF dan

trained adopsi dengan JAFFE masing-

mengganti lapisan masing adalah

atasnya yang 96,51% dan

kompatibel dengan 99,52%

label ekspresi wajah

kemudian model di

fine-tune dengan data

emosi wajah

4. (Hung et al., Dense_FaceLiveNet JAFFE, KDEF akurasi sebesar


44

No Publikasi Solusi Dataset Hasil Evaluasi

2019) untuk dua fase FER2013 70,02%.

pembelajaran transfer. Kedua, dengan

Pertama, dari data menggunakan

yang relatif sederhana model

transfer model pengenalan

pengenalan emosi emosi dasar

dasar dari dataset dari dataset

JAFFE dan KDEF ke FER2013

dataset emosi dasar kemudian di

FER2013 transfer ke

model

pembelajaran

pengenalan

emosi, tingkat

akurasi uji

mencapai

91,93%, yaitu

12,9% lebih

tinggi dari

tingkat akurasi

79,03%

5. (Moravčík & Mengembangkan FER2013, CK+ 70% to approx

Basterrech, model Convolutional 95%


45

No Publikasi Solusi Dataset Hasil Evaluasi

2021) Neural Network

(CNN) dengan

arsitektur tipe VGG

dengan menggunakan

kumpulan dataset

FER2013 kemudian

model dari hasil

pelatihan di evaluasi

menggunakan dataset

CK+

6. (Tan & Le, Dalam penelitiannya ImageNet, 84.3%, 91.7%,

2019) melangkah lebih jauh, CIFAR-100 98.8%

menggunakan (91,7%), Bunga

pencarian arsitektur (98,8%), dan 3

saraf untuk merancang set data

jaringan dasar baru pembelajaran

dan meningkatkannya transfer lainnya

untuk mendapatkan

beberapa model, yang

disebut EfficientNet,

yang mencapai akurasi

dan efisiensi yang jauh

lebih baik daripada


46

No Publikasi Solusi Dataset Hasil Evaluasi

ConvNets sebelumnya

7. (Wikanningrum menggunakan dua FER+ (Facial Single

et al., 2019) arsitektur CNN yang Expression Classifier

ringan, ResNet-20 dan Recognition (Best) 83.92%

ResNet-32, dan Plus) Ensemble

meningkatkan kinerja Classifier

pengklasifikasi (Best) 84.30%

melalui pembelajaran

transfer dan

konfigurasi ensemble.

8. (Sharma et al., Menggunakan Dataset ekspresi Akurasi

2021) arsitektur CNN wajah yang training 67.5%

dengan menggunakan diberikan oleh dan akurasi

empat layer convolusi Pierre-Luc testing 48.3%

disertai dengan dua Carrier dan

layer untuk lapisan Aaron Courville

dalam, dimana setiap

layer menggunakan

beberapa

hyperparameter di

lapisan Convolutional

Neural Network

(CNN)
47

No Publikasi Solusi Dataset Hasil Evaluasi

9. (Nadhir et al., Model hybrid CNN menggabungkan 75.3%

2021) dan k-Nearest pelatihan data

Neighbor (KNN) tambahan dari

menggunakan model JAFFE dan

CNN-KNN hybrid KDEF dengan

untuk FER pada dataset

Raspberry Pi 4, CNN pelatihan FER-

untuk ekstraksi fitur 2013

dan KNN melakukan

pengenalan ekspresi

dengan teknik transfer

learning model

EfficientNet-Lite.

Model hybrid yang di

usulkan memakai

lapisan Softmax di

EfficientNet dengan

algoritma KNN

10. (Minaee et al., Mengusulkan FER-2013, 70.2%, 98.0%,

2021) pendekatan CK+, FERG, 99.3%, 92.8%

berdasarkan dan JAFFE

attentional

convolutional network
48

No Publikasi Solusi Dataset Hasil Evaluasi

yang mampu fokus

pada bagian penting

dari wajah. Penelitian

ini menggunakan

teknik visualisasi yang

mampu menemukan

daerah wajah yang

penting untuk

mendeteksi emosi

yang berbeda

berdasarkan output

pengklasifikasi

2.6.2 Analisis Tinjauan Pustaka

Berdasarkan Tabel 2.1 tinjauan pustaka dalam penelitian berkisar lima

tahun terakhir, sebagian besar peneliti menggunakan teknik termasuk di

dalamnya transfer learning untuk menyelesaikan masalah pengenalan ekspresi

wajah berbasis gambar khususnya menggunakan model arsitektur Convolutional

Neural Network (CNN). Dalam pembuatan model model pengenalan ekspresi

wajah terdapat beberapa macam datasets yang digunakan oleh peneliti di

antaranya yaitu FER2013, JAFFE, KDEF dan CK+. Penelitian yang dilakukan

(Akhand et al., 2021) merupakan penelitian dengan akurasi terbaik saat ini dengan

menggunakan teknik transfer learning dari beberapa model arsitektur terkenal


49

dari kompetisi ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

dengan menggunakan dataset KDEF dan JAFFE.

Akhan dkk dapat memberikan hasil dengan akurasi terbaik dalam

penelitian yang dilakukan karena mengusulkan pemodelan sangat dalam dengan

menggunakan Deep Convolutional Neural Network (DCNN) melalui teknik

Transfer Learning (TL) di mana model DCNN pra-terlatih diadopsi dengan

mengganti lapisan atas yang padat kemudian di cairkan beberapa lapisan tertentu

atau melakukan fine-tune sehingga model kompatibel dengan ekspresi wajah.

Strategi pipeline baru diperkenalkan, di mana pelatihan lapisan padat dari

arsitektur pre-trained Deep CNN digunakan untuk feature extractor kemudian

diikuti dengan menyetel masing-masing blok arsitektur DCNN pra-terlatih yang

telah dilatih sebelumnya secara berturut-turut sehingga menghasilkan peningkatan

akurasi model. Model pengenalan ekspresi wajah yang diusulkan diverifikasi pada

model DCNN pra-terlatih yang berbeda (VGG-16, VGG-19, ResNet-18, ResNet-

34, ResNet-50, ResNet-152, Inception-v3 dan DenseNet-161). Menggunakan 10-

fold cross-validation memperoleh akurasi terbaik dalam pengenalan ekspresi

wajah dicapai menggunakan arsitektur DenseNet-161 dengan akurasi test sets

pada datasets KDEF dan JAFFE yaitu 96.51% dan 99.52% (Akhand et al., 2021).

Dalam penelitian (Akhand et al., 2021) memiliki beberapa kelemahan

yakni, menggunakan model arsitektur DenseNet-161 sangat berpengaruh terhadap

dalam komputasi yang parallel artinya jika menggunakan model sequential proses

training akan berjalan sangat lambat ini dikarenakan jaringan yang sangat dalam.

Untuk mengatasi kelemahan tersebut penulis menggunakan arsitektur standar

CNN, kemudian menggunakan model arsitektur pre-trained yang mana


50

mempunyai parameter yang relatif sedikit disebut dengan EfficientNet, di mana

Tan & Le meningkatkan akurasi model dan kebutuhan komputasi dengan

menskalakan secara efisien ke segala arah seperti tidak hanya kedalaman, tetapi

juga lebar dan resolusi. Idealnya menyebabkan keseimbangan optimal untuk

setiap dimensi relatif terhadap yang lain. Dengan cara ini, EfficientNet tidak

memerlukan kebutuhan komputasi sebanyak yang dibutuhkan seperti model

arsitektur CNN sebelumnya, sehingga diharapkan akan menghasilkan akurasi

yang lebih baik dan daya komputasi yang lebih efisien. Dalam penelitian ini

penulis menggunakan publik datasets CK+ (Extended Cohn-Kanade Dataset) dan

JAFFE.

Dalam makalah ini peneliti mengusulkan model pengenalan ekspresi

wajah dengan model standar CNN dan EfficientNet kemudian melakukan teknik

transfer learning (TL) untuk mengurangi upaya komputasi sehingga lebih efisien.

Teknik TL adalah metode yang populer untuk membangun model dengan cara

menghemat waktu di mana pembelajaran dimulai dari pola-pola yang sudah

dipelajari (Oquab et al., 2014). Dalam model Facial Expression Recognition

(FER) yang diusulkan dalam penelitian ini adalah model pra-terlatih EfficientNet

(Tan & Le, 2019), VGG-19 (Mahendran & Vedaldi, 2016), VGG-16(Atabansi et

al., 2021), MobileNet-V2(Sandler et al., 2018), ResNet-152(He et al., 2016),

Inception-V3 (Szegedy et al., 2016), DenseNet-201 (Huang et al., 2018) awalnya

dimodelkan untuk klasifikasi gambar, diadopsi dengan mengganti lapisan atasnya

padat dengan melakukan unfreeze semua layer arsitektur pre-trained untuk

membuatnya kompatibel dengan ekspresi wajah kemudian membekukan kembali

semua layer kecuali beberapa layer tertetu yang dekat dengan lapisan output
51

untuk dilatih ulang dengan nilai learning rate yang kecil. Dengan strategi fine-

tune diterapakan pada setiap arsitektur model pre-trained untuk mengenali pola

datasets CK+ dan JAFFE.


BAB III METODOLOGI
3.1 Kerangka Pikir

Pada bab tiga ini akan dijelaskan beberapa tahapan, yaitu kerangka

berpikir dan tahapan penelitian yang dilakukan, perencanaan model yang akan

dibuat serta solusi dan rencana evaluasi model pengenalan ekspresi wajah

menggunakan arsitektur standar Convolutional Neural Network (CNN) dan

teknik transfer learning menggunakan tujuh arsitektur pre-trained Deep

Convolutional Neural Network. Dalam melakukan penelitian ini, untuk

mempermudahnya maka dijabarkan langkah-langkah apa saja yang akan diambil

dalam melakukan penelitian ini. Kerangka pikir dari penelitian ini di

representasikan pada Gambar 3.1.

Gambar 3.1 Kerangka Pikir Penelitian.

52
53

Dalam melakukan penelitian ini tahap pertama adalah menentukan tahap

penelitian. dalam tahap penelitian yang pertama adalah menentukan sebuah ide

suatu penelitian dari analisis literatur, berupa paper/makalah dari jurnal

berkualitas yang berkaitan dengan model pengenalan ekspresi wajah khususnya

menggunakan algoritma Convolutional Neural Network (CNN) dan teknik

transfer learning. Kemudian dari analisis tersebut peneliti menemukan sebuah

masalah dari model pengenalan ekspresi wajah. Dari masalah tersebut peneliti

menemukan sebuah solusi untuk menyelesaikan atau memperbaiki masalah

tersebut sehingga dibuatlah rumusan masalah penelitian atau reseach question.

Tahap selanjutnya adalah tahap implementasi model pengenalan ekspresi

wajah dengan model CNN dan menggunakan teknik transfer learning dengan

tujuh arsitektur pre-trained Deep CNN. Langkah pertama peneliti melakukan

pengumpulan data dari ekspresi wajah dasar manusia yaitu, senyum, sedih,

marah, takut, jijik, terkejut, dan netral dataset ini bernama CK+ (Lucey et al.,

2010) dan JAFFE(Lyons et al., 1997). Dataset ini akan dibagi menjadi tiga bagian

yaitu data training set, validation set dan data testing set. Kemudian sebelum citra

masuk ke dalam sebuah arsitektur model, dilakukan proses image augmentation.

Augmentasi gambar ini bertujuan untuk semakin banyak informasi yang diterima

oleh model tanpa memerlukan penambahan dataset tertentu sehingga model dapat

terhindar dari masalah overfitting dan dapat meningkatkan akurasi model.

Dalam implementasi model ini gambar akan masuk sebuah model dengan

ukuran resolusi 224x224 piksel khususnya untuk teknik transfer learning. Ketika

menggunakan model CNN standar input gambar akan dibedakan dari 360×360

hingga 48×48. Model arsitektur ini adalah algoritma Convolutional Neural


54

Network (CNN) dan tujuh model pre-trained Deep Convolutional Neural

Network. Dimana setiap model pre-trained Deep CNN yang padat pada layer

bawahnya bekerja sebagai feature extractor untuk mengenali citra yang

dimasukkan. lapisan yang padat ini berisi banyak layer-layer proses konvolusi

pada tiap lapisannya yang berfungsi sebagai dimension reduction tanpa

mengurangi informasi yang penting dari citra. Setelah gambar melalui proses

feature extractor kemudian dilakukan fine-tuning dimana lapisan atas arsitektur

pre-trained dicairkan sehingga sesuai dengan khasus dalam tujuh label ekspresi

wajah proses ini disebut feature classification. setelah itu peneliti akan

melakukan proses pelatihan dan pengujian dengan melakukan beberapa metode

hyperparameter tuning.

Kemudian langkah selanjutnya adalah evaluation and analysist result. dalam

tahap ini peneliti menggunakan perfomance metric untuk mengukur akurasi

performa dari model. Di mana peneliti menggunakan classification metrics untuk

menghitung rasio prediksi benar dibagi dengan rasio prediksi salah. Jika akurasi

tercapai maka model arsitektur akan disimpan untuk digunakan dalam pengujian

yang disebut validation test.

3.2 Skenario Eksperimen Model


Dalam hal ini digambarkan bagaimana skenario dari eksperimen dari

setiap model arsitektur pre-trined Deep Convolutional Neural Network dalam

pembuatan model dengan metode transfer learning. Gambar 3.2 dapat dijelaskan

yang mana setiap dari arsitektur pre-trained, masing-masing dilakukan sebagai

feature extraction kemudian dalam fase ini peneliti akan melatih model pertama

dengan menggunakan 50 epochs dan learning rate 0.0001 dalam fase ini setiap
55

arsitektur Deep CNN dalam keadaan unfreeze. Ketika model belajar dalam fase

pelatihan pertama, model akan menyimpan bobot atau informasi yang telah

dipelajari dari ImageNet. Setelah itu dilanjutkan melakukan fase pelatihan yang

kedua dengan melakukan unfreeze 6-layer setiap arsitertur pre-trained yang dekat

dengan lapisan output kemudian melatihnya ulang dengan nilai learning rate

sepuluh kali lebih kecil yaitu 0.00001 kemudian melanjutkan dengan

menambahkan dari 51-100 iterasi. Dalam hal ini peneliti akan melakukan pada

tujuh arsitektur yang berbeda dalam pre-trained Deep CNN yaitu EfficientNet-

B0, VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152 dan DenseNet-

201 pada kumpulan dataset publik CK+ dan JAFFE.

Gambar 3.2 Research Model.

3.2.1 Desain Model

Sebelum model pada penelitian ini dibangun, perlu adanya sebuah desain

dari model yang akan dibangun terlebih dahulu. Desain model ini akan menjadi

gambaran besar seperti apa jalannya model yang akan dibangun nantinya. Dari

desain model itu akan terlihat pada bagian mana algoritma CNN dan pre-trained
56

Deep Convolutional Neural Network nanti akan diimplementasikan sehingga

menghasilkan sebuah model. Secara sederhana desain dari model identifikasi

ekspresi wajah ini tergambar pada Gambar 3.3 di bawah ini.

Gambar 3.3 Desain Model

3.2.2 Implementasi Model Pre-Trained Deep CNN

Dalam penelitian ini pertama melakukan eksperimen menggunakan model

Pre-Trained Deep CNN salah satunya EfficientNet-B0 yang padat pada layer

bawahnya bekerja sebagai feature extractor dari citra yang dimasukkan.

Kemudian lapisan yang padat ini berisi banyak layer-layer proses konvolusi pada

tiap lapisannya yang berfungsi sebagai dimension reduction tanpa mengurangi

informasi yang penting dari citra. Setelah gambar melalui proses feature extractor

kemudian dilakukan fine-tuning dimana lapisan atas EfficientNet-B0 dicairkan

dan melatihnya ulang dengan data yang sesuai dengan khusus dalam tujuh label

ekspresi wajah proses ini disebut feature classification. Dalam tahap implementasi

model, penelti akan melakukan pembuatan model dari arsitektur pre-trained Deep

CNN diilustrasikan dalam diagram alir pada Gambar 3.4.


57

Gambar 3.4 Diagram Alir Implementasi Arsitektur Deep CNN.

Dalam penelitian ini setiap dari model pre-trained Deep CNN digunakan

sebagai feature extractor dan sebagian layer atas yang padat di cairkan, kemudian

dilanjutkan dengan melatih ulang arsitektur pada khusus tujuh ekspresi model. Di

mana prinsip ini peneliti menggunakan layer bagian bawah yang padat dari setiap

model deep CNN sebelumnya model telah belajar dari dataset ImageNet.

Proses selanjutnya adalah training dengan menentukan model yang akan

digunakan dan parameter list yang akan ditentukan seperti learning rate dan

jumlah epoch training. Pada proses ini keakuratan akan dihitung menggunakan

loss function, kategori crossentropi dan perhitungan waktu training. Proses testing

dengan menggunakan konsole yang ada di google collaboration, dalam hal ini

akan dilakukan setelah proses training selesai dengan memberikan data testing

sehingga dapat dilakukan evaluasi akurasi.

Dalam penelitian ini untuk melatih dan bereksperimen dalam hal menguji

kinerja State of the Art setiap model, peneliti menggunakan framework

TensorFlow, menggunakan bahasa pemrograman Python, dalam hal ini proses

training peneliti menggunakan GPU dari google dengan spesifikasi pada Gambar

3.5 sebagai berikut:


58

Gambar 3.5 Spesifikasi Mesin untuk Proses Training.

3.3 Benchmark Datasets


Ada beberapa datasets terkenal yang tersedia untuk penggunaan dalam

pembuatan model pengenalan ekspresi wajah seperti (FER2013, KDEF, JAFFE,

CASIA-WebFace, IMED). Khusus dalam tesis ini peneliti menggunakan datasets

CK+(Extended Cohn-Kanade Dataset) dan The Japanese Female Facial

Expression (JAFFE). Untuk gambar CK+ dikategorikan ke dalam tujuh kelas

emosi yang berbeda: takut, marah, jijik, sedih, bahagia, terkejut, netral.

Sedangkan untuk datasets JAFFE dikategorikan ke dalam tujuh kelas emosi yang

berbeda: takut, marah, jijik, bahagia, netral, sedih dan terkejut.

Dalam penelitian ini peneliti membagi datasets CK+ dan JAFFE menjadi

tiga bagian yaitu: 80% untuk pelatihan, 10% untuk validasi dan 10% untuk

testing. Di mana setiap bagian ditaruh dalam tiga folder yang berbeda. Data untuk

pelatihan dan validasi digunakan untuk proses training dalam pembuatan model.

Data validasi untuk proses pengujian setelah proses pembuatan model. Untuk

tampilan datasets CK+ dapat dilihat pada Gambar 3.6.


59

Gambar 3.6 Kelas Ekspresi Datasets CK+ ( Patrick Lucey, 2010).


Dataset JAFFE mengandung gambar ekspresi dari wanita jepang yang

diambil dari Psychology Department at Kyushu University. Dataset JAFFE

dikumpulkan dalam environment yang terkendali untuk menghasilkan ekspresi

wajah secara frontal. Selain itu, JAFFE mengandung varian wajah secara local

dengan tujuh kelas ekspresi wajah. Dataset JAFFE berjumlah relatif kecil dengan

hanya 213 gambar frontal dari 10 individu. Dataset ini dipilih untuk melihat

bagaimana sebuah dataset kecil merespons pelatihan model. Selain itu, sejumlah

esar penelitian menggunakan dataset JAFFE untuk mengevaluasi model FER.

Untuk tampilan datasets JAFFE dapat dilihat pada Gambar 3.7.

Gambar 3.7 Contoh gambar dari dataset JAFFE.


60

3.4 Pre-processing Data


Dalam hal ini pre-processing dilakukan agar gambar dapat dipelajari

secara optimal oleh model. Dalam hal ini cropping wajah dilakukan untuk

mengambil bagian gambar wajah saja, daerah yang bukan wajah dibuang agar

tidak terlalu membebani komputasi dan informasi yang tidak penting dalam

gambar tidak dipelajari oleh model. Seperti yang diketahui, untuk mendapatkan

performa optimal, membutuhkan banyak varian data.

3.4.1 Augmentasi Gambar

Seperti yang diketahui, pada Gambar 3.8 untuk mendapatkan performa

optimal, membutuhkan data dengan jumlah yang banyak. Data augmentasi adalah

sebuah teknik memanipulasi sebuah data tanpa kehilangan inti atau esensi data

tersebut. Augmentasi yang dilakukan sebagai berikut Horizontal Flip, Rotation

0.2, Shear_Range 20, Fill_Mode = “nearest”.

Gambar 3.8 Augmentasi gambar.


61

3.4.2 Pembagian CK+ dan JAFFE

Berikut ini adalah CK+ (Extended Cohn-Kanade Dataset) dan JAFFE

yang digunakan peneliti untuk melatih model. Di mana dari kelas masing-masing

mempunyai jumlah gambar yang berbeda-beda. Penjabaran jumlah tiap kelas

dapat dilihat pada Tabel 3.1.

Tabel 3.1 Jumlah Gambar Tiap Kelas Dataset CK+(data training).

Dataset CK+ Training Dataset

Kelas Emosi Wajah Jumlah Gambar

Marah 109

Jijik 141

Takut 59

Senang 165

Sedih 66

Terkejut 199

Netral 261

Total 1000

Kemudian jumlah gambar untuk validation training dalam proses training

di dalam setiap model arsitektur dapat dilihat pada Tabel 3.2. dalam tabel ini juga

disajikan jumlah gambar tiap kelas untuk validation training.


62

Tabel 3.2 Jumlah Gambar Tiap Kelas Datasets CK+ (validation training).

Dataset CK+48 Validation Dataset

Kelas Emosi Wajah Jumlah Gambar

Marah 13

Jijik 18

Takut 8

Senang 21

Sedih 9

Kaget 26

Neutral 33

Total 128

Selanjutnya adalah pengumpulan data testing. Yang mana data testing

digunakan untuk menguji sebuah model. Berikut ini adalah tabel 3.3 dapat dilihat

sebagai berikut.

Tabel 3.3 Jumlah Gambar Tiap Kelas Datasets CK+ (data testing).

Citra Testing Dataset

Kelas Emosi Wajah Jumlah Gambar

Marah 13

Jijik 18

Takut 8

Senang 21

Sedih 9

Kaget 26
63

Citra Testing Dataset

Kelas Emosi Wajah Jumlah Gambar

Neutral 33

Total 128

Berikut ini tabel 3.4 jumlah masing-masing tiap kelas JAFFE yang

digunakan untuk training set.

Tabel 3.4 Jumlah Gambar Tiap Kelas Datasets JAFFE (data training).

Dataset JAFFE Training Dataset

Kelas Emosi Wajah Jumlah Gambar

Marah 24

Jijik 23

Takut 26

Senang 25

Sedih 25

Terkejut 24

Netral 24

Total 171

Selanjutnya adalah tabel 3.5 jumlah masing-masing tiap kelas JAFFE yang

digunakan untuk validation set.


64

Tabel 3.5 Jumlah Gambar Tiap Kelas Datasets JAFFE (data validation).

Dataset JAFFE Validation Dataset

Kelas Emosi Wajah Jumlah Gambar

Marah 3

Jijik 3

Takut 3

Senang 3

Sedih 3

Terkejut 3

Netral 3

Total 21

Berikut ini tabel 3.6 jumlah masing-masing tiap kelas JAFFE yang

digunakan untuk testing set.

Tabel 3.6 Jumlah Gambar Tiap Kelas Datasets JAFFE (data testing).

Dataset JAFFE Testing Dataset

Kelas Emosi Wajah Jumlah Gambar

Marah 3

Jijik 3

Takut 3

Senang 3

Sedih 3

Terkejut 3
65

Dataset JAFFE Testing Dataset

Kelas Emosi Wajah Jumlah Gambar

Netral 3

Total 21

3.5 Implementasi CNN Model Sequential


Sebelum CK+ dan JAFFE diimplementasikan menggunakan delapan

arsitektur EfficientNet pre-trained. Peneliti terlebih dahulu membuat sebuah

model standar Convolutional Neural Network (CNN) atau disebut dengan

sequential model CNN. Kemudian model standar CNN ini digunakan untuk

mengenali pola dari datasets CK+ dan JAFFE. Yang mana CNN standar ini

dengan dua layer dengan dengan ukuran kernel 5 × 5 dan MaxPooling 2 × 2,

kemudian menggunakan berbagai ukuran input dari 360 × 360 hingga 48 × 48

piksel pada set data CK+ dan JAFFE. Ukuran tes dipilih secara acak 10% dari

data yang tersedia. Hasil yang disajikan adalah akurasi testing set terbaik untuk

total 50 epochs. Berikut ini adalah simulasi gambar 3.9 arsitektur standar CNN

model Sequential.
66

Gambar 3.9 Arsitektur Standar CNN.

3.5.1 Fine-Tuning

Strategi fine-tuning adalah mencairkan beberapa blok lapisan atas model

EfficientNet-B0 yang sebelumnya padat. Di mana lapisan-lapisan atas ini

digunakan sebagai Classifier (Feature Classification) yang akan belajar tujuh

kelas dari ekspresi wajah proses ini biasa disebut fine-tuning yang mana melatinya

ulang pada custom datasets CK+ dan JAFFE. Agar layer-layer pada neuron-

neuron classifier berupa jaringan neural network sesuai dengan kelas model

pengenalan ekspresi wajah dalam hal ini menambahkan 7 neuron untuk masing-

masing ekspresi. Untuk mengaktifkan nilai bobot dari hidden layer kemudian

masuk pada layer output digunakan fungsi aktivasi softmax. Berikut ini adalah

gambar 3.10 Proses Fine-Tuning pada lapisan Classifier merupakan penggalan


67

asitektur lapisan yang dekat dengan atas dari EfficienNet-B0 dan penambahan

fully connected layer.

Gambar 3.10 Proses Fine-Tuning pada lapisan Classifier.


Dalam setiap blok yang telah di unfrozen dari arsitektur EfficientNet-B0

ini yang mana sebelumnya telah belajar dari ImageNet, nantinya akan dilakukan

proses pelatihan ulang pada lapisan 7-layer yang telah dicairkan. Tujuannya

adalah model akan belajar kembali dari tujuh kelas ekspresi pada CK+ dan

JAFFE. dalam setiap blok mengandung operasi matematika seperti pada formula

algoritma Convolutional Neural Network (CNN), Persamaan (3.1) adalah formula

convolution layer, dalam hal ini peneliti menggunakan nilai learning rate yang

kecil agar supaya apa yang telah dipelajari oleh arsitektur EfficientNet-B0 dan

Deep CNN lainnya dari ImageNet tidak rusak dan untuk menghasilkan nilai

akurasi yang tinggi dan grafik loss yang lembut.

ℎ = 𝐷𝑓(𝑤 ∗ 𝑥) (3.1)

Di mana * mewakili operasi convolution, Wi mewakili filter convolution

pada layer, dan f mewakili fungsi aktivasi. Wi D [Wi1; Wi2; WiK], K adalah

nomornya kernel convolution dari layer. Setiap kernel WK i adalah M x M x N

matriks berat dengan M menjadi ukuran jendela dan N menjadi jumlah saluran
68

input. Pada persamaan (3.1) merupakan penjelasan proses dari formula

convolutional layer.

Setelah proses konvolusi dan kemudian dilakukan flattening, kemudian

akan masuk pada fully connected layer. Dalam layer ini berisi hidden layer

jaringan neural network. Dalam layer ini digunakan formula multi layer

perceptron pada persamaan (3.2) dimana, dalam struktur ini menambahkan tiga

hidden layer yaitu input layer, hidden layer dan output layer. hidden layer dan

output layer mengandung beberapa neuron. Untuk output layer digunakan

neuron. dalam hal ini nilai bobot terhubung pada setiap layer, dengan

menggunakan backpropagation ketika terjadi update bobot.

(3.2)
𝑍= 𝑊 𝒴 +𝜃

Di mana, bobot unit vektor i dilambangkan dengan Wji, sedangkan nomor

unit neuron dinyatakan dengan k. Hasil yang berasal dari unit j dilambangkan

dengan yj, di mana bias unit i ditunjukkan dengan yi. Total tertimbang Z, sinyal

yang diterima dari unit i, kemudian disebarkan oleh fungsi transmisi f untuk

menghitung Yiˆ untuk unit i.

Pada output layer digunakan fungsi softmax dalam setiap unit neuron,

untuk menghasilkan nilai prediksi dengan nilai 0.0 sampai 1. Hal ini berguna

dalam klasifikasi karena memberikan ukuran kepastian pada klasifikasi. Fungsi

aktivasi softmax ditampilkan pada persamaan (3.3).

(3.3)
𝑍= 𝑊 𝒴 +𝜃
69

3.5.2 Proses Training Stage dan Testing Stage

Dalam pembuatan model pengenalan ekspresi wajah yang akan dilakukan

untuk mendapatkan pola dari CK+ dan JAFFE menggunakan algoritma CNN

standar dan arsitektur pre-trained Deep CNN dengan pendekatan transfer

learning. Peneliti bereksperimen menggunakan skema dalam pembuatan model

dan pengujian training, validation dan testing. Berikut Gambar 3.4 skema

training dan testing.

Gambar 3.11 Skema Proses Training dan Testing.


70

Dalam pembuatan model pengenalan ekspresi wajah, agar mendapatkan

akurasi pengenalan objek yang tinggi maka arsitektur pre-trained, pada layer

bagian atas yang sebelumnya telah di cairkan yang perlu dilatih terlebih dahulu

dengan data training CK+ dan JAFFE. Tujuan dari melatih model ini adalah

untuk menemukan ciri dari setiap gambar dari ekspresi wajah CK+ dan JAFFE,

kemudian menandai neuron-neuron mana yang akan diaktifkan ketika gambar

diklasifikasi. Oleh karena itu, perlu dibuat skema atau model untuk melakukan

pelatihan pada model CNN standar dan pre-trained Deep CNN agar ketika

dilakukan pengujian Facial Expression Recognition (FER), algoritma sudah

terlatih.

Sebelum model algoritma CNN dan tujuh model arsitektur Deep CNN

melakukan pemrosesan gambar data training yang dibutuhkan harus di panggil

terlebih dahulu. Data training yang dipanggil ini merupakan data yang sudah

melalui proses image augmentation untuk memperluas informasi yang akan

diterima oleh model dari data training. Sebalum itu, perlu adanya inisialisasi

beberapa hyperparameter yang perlu di inisialisasi untuk proses training adalah

learning rate, momentum, epoch, bactsize, kernel, stride dan padding.

3.5.3 Inisialisasi Hypertparameter

Sebelum melakukan pemrosesan gambar dari dataset CK+ dan JAFFE

menggunakan algoritma CNN standar dan menggunakan arsitektur tujuh pre-

trained Deep CNN, data training dan data validation training yang dibutuhkan

harus dipanggil terlebih dahulu. Data training dan data validation training yang

dipanggil ini merupakan data yang sudah dilakukan proses data augmentation

yang mana untuk memperluas atau memperbanyak varian pada saat training.
71

Sebalum itu, perlu adanya inisialisasi beberapa parameter learning. Parameter

yang perlu di inisialisasi untuk proses training ini adalah learning rate, batch size

dan epoch. Dalam hal inisialisasi parameter dapat dilihat pada Tabel 3.7.

Tabel 3.7 Inisialisasi Hyperparameter Tunning.

Hyper Parameter Fungsi

Learning Rate Parameter gradient descent yang digunakan untuk proses

update bobot pada parameter yang akan belajar atau training

pada setiap kali iterasi dilakukan

Batch size Jumlah sampel data yang akan disebarkan pada jaringan

neural network dalam satu kali epoch

Epochs Banyaknya putaran yang dilakukan mulai dari awal dataset

pertama hingga akhir

Dalam hal ini nilai learning rate digunakan adalah 0.0001 atau dengan

melakukan tunning parameter sekecil mungkin nilai learning ratenya agar ketika

melakukan retraining setelah proses fine-tuning tidak merusak apa yang telah

dipelajari oleh arsitektur Deep CNN dari ImageNet. Yang mana peneliti juga

menggunakan learning rate schedule. Leaening rate schedule berfungsi sebagai

menjadwalkan nilai learning rate telah berjalan pada beberapa epochs tertentu,

ketika model telah mencapai akurasi yang baik maka secara otomatis nilai

learning akan naik dan iterasi akan berhenti secara otomatis.

Learning rate adalah parameter dari optimizer. Dalam penelitian ini

optimizer yang digunakan adalah Adaptive Moment Estimation (ADAM)

Optimization. Adam adalah algoritma optimisasi yang dapat digunakan sebagai


72

ganti dari prosedur classical stochastic gradient descent untuk memperbarui

bobot secara iteratif yang didasarkan pada data training. Adam dapat dikatakan

merupakan kombinasi antara RMSprop dan Stochastic Gradient Descent dengan

momentum. Adam diperkenalkan oleh Diederik Kingma dari OpenAI dan Jimmy

Ba dari University of Toronto dalam paper ICLR 2015 mereka yang berjudul

“Adam: A Method for Stochastic Optimization”. Adam adalah metode learning

rate adaptif, dimana Adam menghitung learning rate individu untuk parameter

yang berbeda. Nama “Adam” berasal dari “adaptive moment estimation” karena

Adam menggunakan estimasi gradien momen pertama dan kedua untuk

mengadaptasi learning rate untuk setiap bobot jaringan saraf. Berikut ini adalah

formula persamaan (3.4) optimizer Adam.

𝑆𝑡𝑒𝑝 1: 𝑤ℎ𝑖𝑙𝑒 𝑊 𝑑𝑜 𝑛𝑜𝑡 𝑐𝑜𝑛𝑣𝑒𝑟𝑔𝑒𝑠 (3.4)


𝑑𝑜{
𝜕𝑓(𝑥. 𝑤)
𝑆𝑡𝑒𝑝 2: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡 𝑔 =
𝜕𝑤
𝑆𝑡𝑒𝑝 3: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑝 = 𝑚 . 𝑝 − + (1 − 1 ). 𝑔
𝑆𝑡𝑒𝑝 4: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑞 = 𝑚 . + (1 − 1𝑚 ). 𝑔
𝑝
𝑆𝑡𝑒𝑝 5: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑝 =
1−𝑚
𝑞
𝑆𝑡𝑒𝑝 6: 𝐶𝑎𝑙𝑐𝑢𝑙𝑎𝑡𝑒 𝑞 =
1−𝑚
𝑝
𝑆𝑡𝑒𝑝 7: 𝐴𝑝𝑑𝑎𝑡𝑒 𝑡ℎ𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟 𝑤 = 𝑤 − 𝛼.
𝑞 +𝜖
}

3.6 Evaluasi State of the Art Model


Dalam penelitian proses evaluasi terdiri dalam dua tahap yaitu: pertama

adalah tahap implementasi ketika dalam proses training berupa akurasi dan

runtime dan kedua evaluasi pada tahap testing. Kemudian model terlatih

sebelumnya di load untuk digunakan dalam proses testing, yang mana menguji
73

10% dari data testing CK+ dan JAFFE dari setiap kelas ekspresi wajah kemudian

di evaluasi mnggunakan performance matric Recel, Precision dan F1-Score.

3.6.1 Evaluasi Model Sequential

Berikut ini adalah hasil evaluasi model untuk penggunaannya dalam

pengenalan dua datasets CK+ dan JAFFE menggunakan standar CNN. Dalam hal

ini adalah model sequential di evaluasi akurasinya dalam setiap input gambar

yang berbeda. Yang mana CNN standar ini dengan dua layer dengan dengan

ukuran kernel 5 × 5 dan MaxPooling 2 × 2, kemudian menggunakan berbagai

ukuran input dari 360 × 360 hingga 48 × 48 piksel pada set data CK+ dan JAFFE.

Ukuran tes dipilih secara acak 10% dari data yang tersedia. Hasil yang disajikan

adalah akurasi testing set terbaik untuk total 50 epochs. Berikut ini adalah Tabel

3.8 hasil evaluasi dari arsitektur standar CNN model Sequential berupa testing

akurasi CNN standar dengan dua lapisan konvolusi pada CK+ dan JAFFE dengan

ukuran input gambar yang berbeda.

Tabel 3.8 Hasil Testing akurasi model CNN Standar.

Resolusi Ukuran Gambar CK+ JAFFE

360 × 360 x x

224 × 224 x x

128 × 128 x x

64 × 64 x x

48 × 48 x x
74

3.6.2 Evaluasi Model Berbasis Transfer Learning

Fine-tuning merupakan mode yang penting dalam model yang berbasis

transfer learning. Dalam eksperimen ini menerapkan dua mode training kedalam

masing-masing model, dengan tiap model memiliki dua cara teknik transfer

learning yang berbeda. Tabel 3.9 menyajikan dua mode teknik tranfer leaning

yang berbeda pertama 50 epoch untuk feature extraction kemudian dilanjutkan 50

epoch fine-tuning dari datasets CK+ dan JAFFE.

Tabel 3.9 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode


Training yang Berbeda dalam Transfer Learning.

Training Mode CK+ JAFFE

Feature Extraction Model x x

Fine-Tuning x x

Dalam evaluasi ini peneliti membandingkan dua mode pelatihan di mana

membandingkan antara model feature extraction dengan model fine-tuning.

Dalam hal ini, dataset CK+ dan JAFFE telah melalui proses augmentasi data

sebelum masuk ke setiap dua model. Pertama, peneliti melakukannya di

EfficientNetB0 sebagai model dasar, kemudian mengatur model dasar dan

membekukan lapisannya dasar sebagai feature extraction. Kemudian mengatur

arsitektur model dengan lapisan atas dari EfficientNet-B0 sehingga dapat dilatih

ulang sesuai dengan khusus tujuh kelas ekspresi wajah. Parameter tuning yang

diberikan pada pelatihan ini menggunakan fungsi loss categorical crossentropy

dan optimizer menggunakan fungsi Adam dengan nilai learning rate masing-

masing 0,0001 dan 0,00001 sehingga model dalam update bobot lebih lembut dan
75

model mendapatkan informasi yang lebih banyak. Model dengan tingkat learning

rate yang lebih rendah adalah solusi terbaik untuk saat melakukan fine-tuning.

Kedua, untuk menerapkan fine-tuning model, penelusur ulang melakukan

Unfreeze semua layer dalam model dasar, kemudian melanjutkan ke Refreeze

setiap layer kecuali 6-layer terakhir yang dekat dengan lapisan output dari

arsitektur EfficientNet-B0. Di mana setiap mode pelatihan untuk setiap model

menggunakan 50 epoch untuk model feature extraction dan kemudian 50 epoch

untuk model fine-tuning ketika akan melakukan pelatihan ulang nilai learning rate

akan di inisialisasi 0,00001.

Untuk menemukan model yang terbaik, peneliti melakukan eksperimen

menggunakan tujuh arsitektur pre-trained Deep CNN dengan pendekatan transfer

learning yang sama untuk setiap arsitektur pre-trained yaitu EfficientNet-B0,

VGG-19, VGG-16, MobileNet-V2, ResNet-152, Inception-V3, DenseNet-201.

Eksperimen dilakukan untuk 10% dari datasets CK+ dan JAFFE yang dipilih

secara acak sebagai testing dan 90% sebagai set pelatihan dan validasi. Tabel 3.10

disajikan perbandingan akurasi testing dengan pre-trained arsitektur EfficientNet

yang berbeda untuk CK+ dan JAFFE.

Tabel 3.10 Perbandingan Akurasi Testing CK+ dan JAFFE dengan Model Pre-
trained yang Berbeda.

Pre-Trained Deep CNN CK+ Dengan 10% Data JAFFE Dengan 10%
Model Testing Data Testing
EfficientNet-B0 x x

VGG-19 x x

VGG-16 x x

ResNet-152 X x
76

Pre-Trained Deep CNN CK+ Dengan 10% Data JAFFE Dengan 10%
Model Testing Data Testing
MobileNet-V2 x x

Inception-V2 x x

DenseNet-201 x x

3.6.3 Evaluasi Tahap Testing

Setelah evaluasi training dan validation selesai kemudian setiap model

akan dilakukan evaluasi dari testing untuk menguji Seberapa baik kinerja dari

setiap model Deep CNN. Dalam hal ini ini proses evaluasi tahap testing, peneliti

akan mengukur setiap prediksi dengan menggunakan tiga perhitungan

performance matric Precision, Receal dan F1-Score secara manual dari setiap data

testing dari gambar CK+ dan JAFFE yang diujikan terhadap setiap keluarga

model pre-trained Deep CNN. karena menggunakan F1-Score sangat baik untuk

datasets yang tidak seimbang seperti datasets CK+. Berikut ini adalag Tabel 3.11

evaluasi prediksi proses testing.

Tabel 3.11 Evaluasi Testing.

Predict Class
Matriks
Afraid Angry Disgusted Sad Happy Surprised Neutral
Afraid x x x x x x x
Angry x x x x x x x
Actual Class

Disgusted x x x x x x x
Sad x x x x x x x
Happy x x x x x x x
Surprised x x x x x x x
Neutral x x x x x x x
77

Untuk mengevaluasi performa dari setiap model klasifikasi pengenalan

ekspresi wajah yang sudah dibangun digunakan performance matric accuracy,

precision, recall, f1-score.

(𝑇𝑃 − 𝑇𝑁) (3.5)


𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
(𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁)

𝑇𝑃 (3.6)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
(𝑇𝑃 + 𝐹𝑃)

𝑇𝑃 (3.7)
𝑅𝑒𝑐𝑎𝑙𝑙 =
(𝑇𝑃 + 𝐹𝑁)

2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 (3.8)


𝐹1 − 𝑆𝑐𝑜𝑟𝑒 =
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙

𝑇𝑁 (3.9)
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
(𝑇𝑁 + 𝐹𝑃)

Accuracy (3.5) merupakan rasio prediksi benar (True Positive dan True

Negative). Dalam hal ini seberapa akurat setiap model pengenalan ekspresi wajah

dapat mengklasifikasi ekspresi dengan benar. Maka berapa rasio model

memprediksi ekspresi yang benar (positif dan negatif) dengan keseluruhan data

ekspresi wajah. Dengan kata lain accuracy merupakan kedekatan dengan nilai

prediksi ekspresi yang benar, dengan nilai aktual(sebenarnya). Dengan

menghitung nilai akurasi dapat menjawab pertanyaan “Berapa persen model

pengenalan ekspresi wajah yang dapat dalam memprediksi ekspresi yang benar

dan prediksi yang salah dari keseluruhan data ekspresi wajah?”.

Precision (3.6) merupakan persentase ketepatan dalam memprediksi

positif yang benar (True Positive) dibandingkan dengan hasil prediksi positif

secara keseluruhan. Dalam hal ini menggambarkan tingkat keakuratan model dari

ekspresi yang diminta dengan hasil prediksi ekspresi yang diberikan oleh model.
78

Model menghitung rasio prediksi benar positif dibandingkan dengan keseluruhan

hasil yang diprediksi positif. Dari semua kelas ekspresi positif yang telah

diprediksi dengan benar, berapa banyak kelas ekspresi yang benar-benar positif.

Dengan menghitung nilai precision dapat menjawab “Berapa persen ekspresi yang

benar diprediksi dari keseluruhan ekspresi yang benar?”

Untuk recall (3.7) atau sensitivity menggambarkan keberhasilan model

dalam menemukan kembali sebuah informasi. Dalam hal ini recall merupakan

rasio prediksi benar positif dibandingkan dengan keseluruhan data yang benar

positif. Dengan menghitung nilai recall dapat menjawab pertanyaan “Berapa

persen ekspresi yang diprediksi benar dibandingkan dengan keseluruhan ekspresi

yang sebenarnya?”

F1-Score (3.8) merupakan bobot rata-rata dari precision dan recall. F-1

Score atau bisa disebut juga dengan F-1 Measurement adalah metrics yang

menggambarkan perbandingan rata-rata precision dan recall yang harmonic.


BAB IV HASIL DAN PEMBAHASAN

4.1 Hasil Implementasi

Sesuai dengan metodologi penelitian pada bab tiga, implementasi dalam

penelitian ada dua tahap dengan melakukan beberapa eksperimen, yaitu

eksperimen ketika proses pelatihan ulang dari setiap model, dan eksperimen

ketika proses testing model. Hasil eksperimen dari setiap model kemudian

dibandingkan akurasinya dalam mengenali datasets CK+ dan JAFFE. Evaluasi

pertama akan disajikan hasil akurasi dengan ukuran input gambar mulai dari 48 ×

48 sampai 360 × 360 untuk diuji menggunakan model standar CNN. Evaluasi

kedua membandingkan akurasi ketika proses transfer learning pada dua tahap

yaitu feature extraction dan fine-tuning dengan menggunakan EfficientNet-B0.

Evaluasi ketiga adalah membandingakan hasil akurasi dari setiap delapan model

EfficientNet ketika diuji menggunakan CK+ dan JAFFE berbasis transfer

learning. Kemudian dilanjutkan mengenai pembahasan detail mengenai hasil

implementasi penelitian, kemudian dilanjutkan dengan pembahasan

hyperparameter tunning dan hasil testing dari CK+ dan JAFFE berdasarkan

pengukuran akurasi, precision, recall, dan F1-Score. Kemudian, dilanjutkan

dengan pembahasan akurasi model secara keseluruhan.

4.1.1 Hasil Pengujian Model Standar CNN

Setelah melakukan preprocessing datasets CK+ dan JAFFE, kemudian

Langkah selanjutnya adalah pengujian model sequential atau standar CNN. Dalam

pengujian akan menggunakan hyperparameter pada model. Agar mendapatkan

akurasi training dan akurasi validasi terbaik ketika model sudah mencapai akurasi

79
80

terbaik digunakan fungsi early stopping ini berguna untuk ketika proses pelatihan

berlangsung jika model telah mencapai akurasi di atas 99% maka proses fitting

akan secara otomatis berhenti dalam epoch tertentu. Dalam hal ini model akan

diuji menggunakan ukuran input gambar yang berbeda mulai dari 48 × 48 sampai

360 × 360 dengan hyperparameter yang sama untuk setiap model dalam

memperoses gambar. Dari pembahasan tersebut spesifikasi hyperparameter

sebagai berikut:

Learning Rate: 0.0001

Optimizer: Adam

Batch Size: 32

Epoch: 50 (validation accuracy > 99% makan proses pelatihan berhenti)

Menggunakan nilai learning rate yang telah disebutkan di atas dan

optimizer Adam karena karena pengujian dalam penelitian yang dilakukan

sebelumnya oleh (Akhand et al., 2021) menggunakan hyperparameter yang sama

berdasarkan inisialisasi dalam pengujian model penelitian tesis ini. Untuk ukuran

batchsize menggunakan nilai default 32 karena dapat berpengaruh terhadap

kinerja setiap model dalam melakukan proses pelatihan. Selain itu jumlah iterasi

tergantung dari berapa kali model melakukan proses fitting sehingga model

mencapai akurasi training dan validation di atas akurasi yang telah ditentukan

ambang batasnya dalam hal ini proses iterasi akan berhenti ketika model telah

mencapai akurasi pelatihan di atas 99%.

Dalam hasil eksperimen dengan input gambar yang berbeda dari dua

datasets CK+ dan JAFFE memiliki akurasi yang berbeda diuji dengan standar
81

model standar CNN. Yang mana ukuran asli dari datasets CK+ adalah mempunyai

resolusi 48×48 piksel sementara ukuran asli dari JAFFE adalah 256×256 piksel.

Ketika akan masuk model gambar akan dilakukan scaling dari dari 48 × 48

sampai 360 × 360 menggunakan Imagedata Generator. Kemudian di proses oleh

Model standar CNN dengan 3-layer konvolusi. Gambar 4.1 dapat dilihat detai

arsitektur standar CNN Sequential.

Secara teori dengan resolusi gambar yang lebih tinggi model akan banyak

mendapatkan informasi, sehingga akurasi akan lebih tinggi karena model

menerima informasi dari gambar semakin lembut, sehingga perbedaan antar kelas

dari tujuh ekspresi wajah dapat terlihat secara jelas. Sementara dengan ukuran

gambar dengan dimensi resolusi yang lebih kecil akurasi cenderung turun karena

model akan mengenali pola semakin bias, sehingga model dalam mempelajari

suatu data lebih sedikit artinya informasi dari gambar yang mempunyai resolusi

kecil akurasi model cenderung turun. Tetapi dengan ukuran input gambar besar

membutuhkan daya komputasi yang tinggi karena mesin melakukan pekerjaan

lebih banyak dan kompleks. Dalam Tabel 4.1 disajikan Perbandingan akurasi

testing dari model standar CNN dalam mengenali kedua datasets CK+ dan

JAFFE. Ada perbedaan terkait dengan efek perbedaan resolusi gambar dengan

hasil kinerja model yang diperoleh. Pada awalnya secara orisinal ukuran dari

gambar CK+ dan JAFFE masing-masing 254×254 dan 256×256 piksel. Jika

ukuran gambar semakin mendekati ukuran asli maka akurasi model cenderung

meningkat karena pola yang dihasilkan gambar input semakin jelas/lembut. Jika

ukuran asli dilakukan resize lebih besar maka gambar akan semakin buram/blur
82

tapi jika ukuran gambar dilakukan resize menjadi lebih kecil informasi dari setiap

piksel dari diambil oleh model akan semakin sedikit.

Tabel 4.1 Perbandingan Akurasi Testing Model Standar CNN Menggunakan


CK+ dan JAFFE.

Resolusi Ukuran Gambar CK+ JAFFE

360 × 360 95.31% 95.01%

224 × 224 98.22% 100.0%

128 × 128 95.00% 95.45%

64 × 64 93.66% 91.00%

48 × 48 92.19% 88.88%

Dalam Tabel 4.1 terlihat bahwa JAFFE memiliki akurasi testing tertinggi

dengan akurasi 100% untuk resolusi dengan ukuran gambar 224×224 Piksel

karena ukuran asli dari JAFFE adalah 256× 265 piksel sehingga perubahan akan

sangat sedikit ketika menurunkan ke dalam resolusi 224×224 piksel. Sementara

itu dengan ukuran resolusi 48×48 piksel akan masuk pada arsitektur sequential

akurasi menjadi 88.88% ini dikarenakan semakin kecil resolusi gambar maka

model akan sedikit dalam mempelajari informasi dari suatu pola dari gambar.

Untuk CK+ mempunyai akurasi testing 98.22% dengan resolusi gambar 224×224,

sementara akurasi testing terendah dari CK+ diperoleh dengan resolusi gambar

48×48 Piksel, dengan resolusi asli dari CK+ adalah 48×48 piksel. Dalam hal ini

dapat diartikan bahwasanya semakin kecil resolusi gambar maka model akan

mempelajari pola dari suatu gambar akan lebih banyak biasnya. Jika resolusi

gambar semakin besar maka model akan belajar dari suatu pola semakin lembut

dan jelas artinya lebih banyak informasi untuk gambar yang memiliki resolusi
83

lebih tinggi. Sehingga model yang mempelajari gambar yang memiliki resolusi

lebih tinggi memiliki akurasi cenderung tinggi. Berikut ini adalah Gambar 4.1

sampai Gambar 4.5 grafik dari akurasi training dan loss dari input gambar yang

berbeda mulai dari resolusi gambar 360×360 sampai 48×48 khususnya untuk

dataset CK+.

Gambar 4.2 Akurasi Training dan Loss CK+ 360×360 Piksel.

Gambar 4.1 Akurasi Training dan Loss CK+ 224×224.

Gambar 4.3 Akurasi Training dan Loss CK+ 128×128.


84

Gambar 4.5 Akurasi Training dan Loss CK+ 64×64.

Gambar 4. 4 Akurasi Training dan Loss CK+ 48×48.


Dalam hal ini kemudian disajikan gambar 4.6 sampai 4.9 merupakan

grafik akurasi training dan loss dari datasets JAFFE diuji menggunakan resolusi

gambar yang berbeda dari ukuran 360×360 sampai 48×48 dalam model CNN

standar atau model Sequential.

Gambar 4.6 Akurasi Training dan Loss JAFFE 360×360.


85

Gambar 4.8 Akurasi Training dan Loss JAFFE 224×224.

Gambar 4.7 Akurasi Training dan Loss JAFFE 128×128.

Gambar 4.9 Akurasi Training dan Loss JAFFE 64×64.


86

Gambar 4.10 Akurasi Training dan Loss JAFFE 48×48.


Dalam hal ini ketika model melakukan proses pelatihan dengan beberapa

nilai iterasi tertentu grafik dalam visualisasi terlihat garis kadang naik, kemudian

kadang turun kemudian melandai sehingga grafik terlihat seperti terjadi osilasi,

karena berikut ini merupakan proses update bobot atau weight secara terus

menerus sampai kinerja model mencapai optimal. Yang mana model berusaha

agar apa yang dipelajari sesuai dengan kelas ekspresi wajah. Apa artinya menaik?

Jika naik berarti model berhasil melakukan perbaikan kinerja artinya nilai bobot

mendekati nilai pola dari data setiap kelas ekspresi wajah. Apa artinya menurun?

Ketika grafik terlihat menurun maka model mengalami pengurangan nilai bobot

artinya kinerja model mengalami sedikit penurunan karena sedang mengalami

kesulitan dalam mengenali pola tertentu dari data training.

Selanjutnya mengapa terjadi naik turun atau osilasi? Karena proses

memperbaharui bobot dalam proses training yang sedang berlangsung

menunjukkan kemampuan kinerja model dalam mengenali setiap ekspresi pada

setiap kelas yang berbeda. Dari setiap kelas ekspresi, kekuatan akurasi mesin

dalam mengenali setiap pola mempunyai bobot yang berbeda-beda. Kadang kelas

ekspresi tertentu pola yang dipelajari oleh mesin relatif mudah sehingga bobot

mudah dipelajari sehingga menampilkan grafik yang naik begitu juga sebaliknya
87

ketika grafik mengalami penurunan, proses ini terus berlanjut sampai model telah

mencapai akurasi terbaik atau model telah mencapai konvergen.

4.1.2 Hasil Pengujian Model Berbasis Transfer Learning

Setelah melakukan preprocessing dataset CK+ dan JAFFE, akan

dilakukan pengujian ketujuh model atau Deep Convolutional Neural Network ,

yaitu EfficientNet-B0, VGG19, VGG-16, MobileNet-V2, ResNet-152, Inception-

V3 dan DenseNet-201. Dalam tahapan pengujian akan menggunakan

hyperparamter pada model. Agar mendapatkan hasil akurasi training dan

validation terbaik menggunakan early stopping dengan ini ketika model telah

mencapai akurasi terbaik atau yang diharapkan, model akan secara otomatis

berhenti dalam melakukan pelatihan di beberapa iterasi tertentu, Spesifikasi pada

hyper parameter yang dijalankan akan mendapatkan hasil akurasi training dan

validation sama pada setiap model arsitektur pre-trained. Dari pembahasan di atas

spesifikasi hyper parameter sebagai berikut:

Learning rate: 0.0001 Feature Extraction dan 0.00001 Fine-Tuning

Optimizer: Adam

Batch Size: 32

Epoch: 50 Feature Extraction + 50 Fine-Tuning

Tabel 4.2 menyajikan dua tahap teknik tranfer leaning yang berbeda

pertama 50 epoch untuk feature extraction kemudian 50 epoch fine-tuning dalam

hal ini yang digunakan secara random dari datasets CK+ dan JAFFE.
88

Tabel 4.2 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode


Training yang Berbeda dalam Transfer Learning.

Training Mode CK+ JAFFE

Feature Extraction Mode 79.69% 47.62%

Fine-Tuning Mode 99.30 85.71%

Dalam hasil pengujian ini peneliti membandingkan dua mode pelatihan di

mana membandingkan antara model feature extraction dengan model fine-tuning.

Dalam hal ini, dataset CK+ dan JAFFE telah melalui proses augmentasi data

sebelum masuk ke setiap dua model. Pertama, peneliti melakukannya di

EfficientNetB0 sebagai model dasar, kemudian mengatur model dasar dan

membekukan lapisannya dasar sebagai feature extraction. Kemudian Atur

arsitektur model dengan lapisan atas dari EfficientNet sehingga dapat dilatih.

Parameter tuning yang diberikan pada pelatihan ini menggunakan fungsi loss

categorical crossentropy dan optimizer menggunakan fungsi Adam dengan nilai

learning rate masing-masing 0,0001 sehingga model dalam mengupdate bobot

lebih lembut dan model mendapatkan informasi yang lebih banyak. Model dengan

tingkat learning rate yang lebih rendah adalah solusi terbaik untuk saat

melakukan fine-tuning pada pelatihan berikutnya. Kedua, untuk menerapkan fine-

tuning model, penelusur ulang melakukan Unfreeze semua layer dalam model

dasar, kemudian melanjutkan ke refreeze setiap layer kecuali 5 layer terakhir dari

EfficientNet-B0. Di mana setiap mode pelatihan untuk setiap model menggunakan

50 epoch untuk model feature extraction dan kemudian 50 epoch untuk model

fine-tuning ketika akan melakukan pelatihan ulang nilai learning rate akan

diinisialisasi 0,00001.
89

Untuk menemukan model yang cocok dan terbaik, peneliti bereksperimen

dengan menggunakan arsitektur Deep Convolutional Neural Network khususnya

(EfficientNet-B0, VGG-19, VGG-16, MobileNet-V2, ResNet-152, Inception-V3,

dan DenseNet-201). Eksperimen dilakukan untuk 10% dari data yang dipilih

secara acak sebagai validation data kemudian 80% sebagai training data, dan

10% untuk testing model. Untuk setiap masing-masing peneliti menerapkan hal

yang sama pada datasets CK+ dan JAFFE dalam hal splitting data. Dalam tabel

4.3 disajikan bahwasaanya perbandingan akurasi testing dari 10% data CK+ dan

JAFFE untuk pengujian tujuh model pre-trained yang berbeda dari hasil pelatihan

menggunakan transfer learning.

Tabel 4.3 Perbandingan akurasi testing dengan tujuh model Deep Convolutional
Neural Network pada CK+ dan JAFFE.

Pre-Trained CK+ in JAFFE in


EfficientNet Selected 10% Selected 10%
Model Test Sample Test Sample

EfficientNet-B0 99.30% 85.00%

VGG-19 98.43% 100.0%

VGG-16 97.65% 100.0%

MobileNet-V2 70.62% 95.45%

ResNet-152 84.37% 77.27%

Inception-V3 55.68% 86.36%

DenseNet-201 64.06% 67.44%

EfficientNet-B0 merupakan arsitektur CNN pre-trained model yang mana

model dasar EfficientNet-B0 dibangun menggunakan konvolusi bottleneck

terbalik (MBConv) yang mirip dengan MobileNetV2 dan MnasNet. Karena


90

jumlah parameter untuk komputasi sangat kecil, EfficientNet dapat digunakan

dengan sangat baik untuk pemrosesan cepat dalam aplikasi mobile dan ketika

melakukan pelatihan ulang EfficientNet cenderung cepat dari arsitektur yang lain.

Dalam Tabel 4.3 EfficientNet memiliki kinerja sangat bagus dalam mengenali

pola CK+ sementara untuk mengenali JAFFE EfficientNet akurasi model

cenderung turun karena tidak semua arsitektur Deep CNN cocok untuk dataset

tertentu. Di mana EfficientNet-B0 memiliki performa 99.30% dalam hal testing

sementara untuk pengujian JAFFE memiliki akurasi testing 85% yang mana

penguji menguji 10% dari setiap data yang bersangkutan untuk testing. Dari hasil

akurasi training dan validation EfficientNet-B0 memiliki perbedaan antara CK+

dan JAFFE. Dalam Gambar 4.11 kemudian 4.12 dapat dilihat akurasi training dan

validation kemudian hasil training loss dan validation loss dari masing-masing

CK+ dan JAFFE menggunakan model arsitektur EfficientNet.

Gambar 4. 11 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan EfficientNet-B0.
91

Gambar 4.12 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan EfficientNet-B0.
Selanjutnya adalah VGG-19 merupakan model yang dikembangkan oleh

Simonyan dan Zisserman. VGGNet dikembangkan oleh Visual Geometry Group

di Oxford University. Model ini menjuarai kontes ILSVRC sebagai 1st Runner-up

Image Classification. Arsitektur VGG-19 merupakan arsitektur yang terdiri dari

47-layer yang menggunakan konsep semakin banyak layer akurasi semakin baik.

Convolutional layer menggunakan filter 3 × 3 dengan jumlah dimensi bertambah

di setiap layer. Dimensi yang digunakan pada filter adalah 3, 64, 128, 256, dan

512. VGG-19 mempunyai jumlah parameter 138 juta parameter. Dalam gambar

4.13 kemudian 4.14 dapat dilihat akurasi training dan validation kemudian hasil

training loss dan validation loss dari masing-masing CK+ dan JAFFE

menggunakan model arsitektur VGG-19.


92

Gambar 4.13 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-19.

Gambar 4.14 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-19.
Dalam eksperimen selanjutnya peneliti menggunakan VGG-16 yang mana

merupakan model yang dikembangkan oleh Simonyan dan Zisserman. Arsitektur

VGG-16 yang di dalamnya terdapat proses 5 blok konvolusi yang terdiri dari

operasi konvolusi 3x3 menggunakan 1 stride dengan jenis padding same/zero


93

padding lalu di aktivasi menggunakan relu. Kemudian setiap selesai operasi blok

konvolusional di reduksi menggunakan operasi maxpooling 2x2 dengan 2 stride

dan diakhiri dengan 2 dense layer sebanyak 4096 node/neuron. Dalam hal ini

Gambar 4.15 kemudian 4.16 dapat dilihat akurasi training dan validation

kemudian hasil training loss dan validation loss dari masing-masing CK+ dan

JAFFE menggunakan model arsitektur VGG-16.

Gambar 4.16 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-16.

Gambar 4. 15 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-16.
94

Selanjutnya penelitian ini juga menggunakan MobileNet untuk mengenali

CK+ dan JAFFE. MobileNet adalah arsitektur model yang dikembangkan oleh

tim google brain dengan menerapkan proses komputasi lebih efisien

MobileNetV1 memiliki Depthwise separable convolution merupakan blok pada

yang terdiri dari depthwise convolution dan pointwise convolution, kedua fitur

tersebut berguna untuk mengurangi komputasi sehingga hasil lebih menghemat

sumber daya. Sedangkan MobileNetV2 strukturnya sama dengan MobileNetV1

hanya saja versi ini menambahkan dua fitur terbaru yaitu linear bottleneck dan

shortcut connection di mana fitur tersebut berfungsi mempertahankan agar

informasi dari data tidak hilang pada saat diolah, sekaligus dapat mempercepat

proses setiap iterasi yang dijalankan. Dalam hal ini Gambar 4.17 kemudian 4.18

dapat dilihat akurasi training dan validation kemudian hasil training loss dan

validation loss dari masing-masing CK+ dan JAFFE menggunakan model

arsitektur MobileNet-V2.

Gambar 4.17 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan MobileNet-V2.
95

Gambar 4. 18 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan MobileNet-V2.
Dalam eksperimen selanjutnya peneliti menggunakan salah satu arsitektur

Deep CNN yaitu ResNet-152 yang mana merupakan model menggunakan konsep

skip connection untuk mengatasi vanishing gradient yang mana jika semakin

dalam jaringan maka nilai gradien menghilang. ResNet-152 artinya ada 152-layer

dalam ResNet-152. Jaringan residual network ini dikembangkan oleh Kaiming He

dan memiliki jumlah parameter 25 juta dan merupakan pemenang dari kompetisi

ImageNet tahun 2015. ResNet merupakan solusi dari neural network yang dalam,

semakin dalam pelatihan maka semakin rumit dan kedalaman sangat penting

untuk pelatihan agar parameter atau neuron dapat mengingat atau menyimpan

nilai pelatihan yang optimal. Berikut ini merupakan Gambar 4.19 kemudian 4.20

dapat dilihat akurasi training dan validation kemudian hasil training loss dan

validation loss dari masing-masing CK+ dan JAFFE menggunakan model

arsitektur ResNet-152.
96

Gambar 4.20 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan ResNet-152.

Gambar 4. 19 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan ResNet-152.
Kemudian dalam penelitian ini dilanjutkan eksperimen menggunakan

arsitektur Deep Convolutional Neural Network yaitu Inception-v3 dalam

mengenali pola CK+ dan JAFFE. Inception-V3 merupakan pengembangan dari

model GoogleNet atau Inception-v1 yang dikembangkan pada penelitian (Szegedy

et al., 2016). Inception-v3 terdiri dari 5 lapisan konvolusional dasar (stem) dengan
97

tipe valid padding yang terdiri dari conv2d_0 hingga conv2d_4 dimana setiap

operasi konvolusi diikuti oleh aktivasi ReLu dan BatchNormalization. Berikut ini

merupakan Gambar 4.21 kemudian 4.22 dapat dilihat akurasi training dan

validation kemudian hasil training loss dan validation loss dari masing-masing

CK+ dan JAFFE menggunakan model arsitektur Inception-V3.

Gambar 4.21 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan Inception-V3.
98

Gambar 4.22 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan Inception-V3.
Penelitian selanjutnya menggunakan arsitektur Deep Convolutional

Neural Network bertipe DenseNet-201. DensNet adalah kepanjangan dari Dense

Convolutional Neural Network merupakan pengembangan dari jaringan residual.

Bedanya DenseNet mengambil nilai gradien dari setiap later untuk

dikalkulasikan dengan semua layer yang ada di lapisan atasnya jadi dalam segi

komputasi DenseNet jauh lebih berat dan dalam. DenseNet Memiliki beberapa

keuntungan yaitu: menghilangkan masalah gradien yang hilang, memperkuat

feature propagation, menggunakan penggunaan Kembali fitur dan secara

substansial mengurangi jumlah parameter. Berikut ini merupakan Gambar 4.23

kemudian 4.24 dapat dilihat akurasi training dan validation kemudian hasil

training loss dan validation loss dari masing-masing CK+ dan JAFFE

menggunakan model arsitektur DenseNet-201.


99

Gambar 4.24 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan DenseNet-201.

Gambar 4.23 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan DenseNet-201.
100

4.2 Evaluasi

Dalam hal ini evaluasi penelitian pertama akan membandingkan hasil

testing dari setiap model standar Convolutional Neural Network (CNN) dari

ukuran input gambar yang berbeda untuk setiap datasets CK+ dan JAFFE. Setelah

itu membandingkan hasil testing dari setiap model Deep Convolutional Neural

Network dalam mengenali pola CK+ dan JAFFE dari tujuh arsitektur pre-trained

diantaranya EfficientNet-B0, VGG-19, VGG-16, MobileNet-V2, ResNet-152,

Inception-V3, DenseNet-201. Evaluasi akan disajikan berupa classfification

report dan confusion matrix. Klasifikasi ini terdiri dari recell, precision, dan F-1

score. Recall menunjukkan jumlah objek antara actual dan prediction secara

akurat, precision menunjukkan jumlah objek yang dipilih secara benar dan F-1

score menunjukan rata-rata dari recall dan precision (Abdurrohman et al., 2018).

Dalam penerapannya untuk pengenalan ekspresi wajah evaluasi dapat

membantu untuk mengenali emosi seseorang secara akurat. Sehingga dapat

menentukan tindakan terhadap seseorang terhadap emosi seseorang.

4.2.1 Hasil Evaluasi Model Standar CNN

Dalam evaluasi ini disajikan hasil confusion matrix dari hasil eksperimen

model menggunakan standar CNN dari ukuran input resolusi gambar yang

berbeda mulai dari 48×48 piksel hingga 360×360 piksel untuk setiap datasets

CK+ dan JAFFE. Berikut ini gambar 4.25 confusion matrix dari model untuk

input gambar yang berbeda dari CK+. Kemudian dilanjutkan gambar 4.26

confusion matrix dari model untuk input dengan resolusi gambar yang berbeda

dari datasest JAFFE.


101

Gambar 4.25 Hasil Confusion Matrix dari


48×48 piksel hingga 360×360 untuk CK+.
102

Pada gambar 4.25 merupakan hasil confusion matrix dari setiap input

gambar yang berbeda dari resolusi dari 48×48 sampai 360×360 untuk setiap

model yang berbeda. Dapat dilihat prediksi beserta aktual hasil akurasi testing

data. Selanjutnya berikut ini adalah rincianya yang diberikan label 0-6: 0 = Anger,

1 = disgust, 2 = fear, 3 = happy, 4 = neutral, 5 = sadness, 6 = surprise. Jika untuk

menentukan model pengenalan ekspresi wajah model dengan hasil pemrosesan

ukuran gambar 244×244 menghasilkan akurasi terbaik yaitu 98.22% .


103

Gambar 4.26 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
JAFFE.
Pada Gambar 4.26 merupakan hasil confusion matrix dari setiap input

gambar yang berbeda dari resolusi dari 48×48 sampai 360×360 untuk setiap

model yang berbeda. Dapat dilihat prediksi beserta aktual hasil akurasi testing

data. Selanjutnya berikut ini adalah rincian yang diberikan label 0-6: 0 = Anger, 1

= disgust, 2 = fear, 3 = happy, 4 = neutral, 5 = sadness, 6 = surprise. Jika untuk

menentukan model pengenalan ekspresi wajah model dengan hasil pemrosesan

ukuran gambar 244×244 menghasilkan akurasi terbaik yaitu 100.0% khususnya

untuk datasets JAFFE.

Berikutnya adalah mengevaluasi di mana menjelaskan hasil classification

report yang akan melihat hasil dari masing-masing dari model dengan ukuran dari

resolusi 48×48 hingga 360×360 untuk setiap datasets CK+ dan JAFFE. Berikut

Tabel 4.4 menyajikan hasil classification report untuk melihat hasil dari

precision, recall, F1-Score beserta setiap dari akurasi model.


104

Tabel 4.4 Hasil Classification Report Standar CNN.

CK+ JAFFE

Model Precision Recall F-1 Accuracy Precision Recall F-1 Accuracy

Score Score

48×48 89% 88% 88% 92% 92% 88% 88% 88%

64×64 96% 90% 92% 95% 91% 91% 91% 91%

128×128 97% 89% 91% 95% 96% 97% 96% 95%

224×224 97% 93% 94% 97% 100% 100% 100% 100%

360×360 96% 88% 90% 94% 97% 96% 96% 95%

Pada Tabel 4.4 merupakan hasil classification report dari testing model di

mana menyajikan hasil dari akurasi model dari setiap input dari resolusi gambar

mulai 48×48 sampai 360×360. Di mana setiap model dalam tabel menunjukkan

perbandingan akurasi antara datasets CK+ dan JAFFE. Berdasarkan classification

report tersebut, model dengan ukuran input dengan resolusi gambar 224×224

cenderung memiliki akurasi terbaik untuk dua datasets CK+ maupun JAFFE. Dan

ketikan nilai input gambar resolusi semakin rendah akurasi turun mencapai rata-

rata 5%. Akurasi terendah dengan ukuran input resolusi gambar terkecil yaitu

48×48. Dengan nilai hasil akurasi tiap model di atas menggunakan inisialisasi

hyperparameter yang sama seperti menggunakan optimizer Adam, kemudian nilai

learning rate 0.0001. Pada Gambar 4.27 di visualisasikan nilai akurasi dari setiap

model menggunakan ukuran input yang berbeda dengan datasets CK+ dan

JAFFE. Kemudian Pada Gambar 4.28 di visualisasikan nilai performance matrix


105

F-1 Score dari setiap model menggunakan ukuran input yang berbeda dengan

datasets CK+ dan JAFFE.

Accuracy (%)
102.00%
100.00%
98.00%
96.00%
94.00%
92.00%
90.00%
88.00%
86.00%
84.00%
82.00%
360 × 360 224 × 224 128 × 128 64 × 64 48 × 48

CK+ JAFFE

Gambar 4.27 Hasil Akurasi Model.

F1-Score
102%
100%
98%
96%
94%
92%
90%
88%
86%
84%
82%
360 × 360 224 × 224 128 × 128 64 × 64 48 × 48
CK+ JAFFE

Gambar 4.28 Hasil Akurasi Model.


Dari Gambar 4.27 terdapat makna yang dapat diambil bahwasanya ukuran

gambar dengan ukuran input 224×224 cenderung mencapai akurasi tertinggi dari

ukuran input yang lainnya. Semakin kecil ukuran input gambar maka model akan
106

menghasilkan akurasi yang semakin menurun, karena semakin sedikit informasi

yang diperoleh oleh model dalam mengenali pola datasets. Dalam hal ini ukuran

dari sebuah arsitektur juga berpengaruh terhadap ukuran input 224×224 dalam

penelitian ini arsitektur disesuaikan dengan ukuran input tersebut. Selain itu

JAFFE cenderung menghasilkan akurasi terbaik karena JAFFE mempunyai data

varian yang lebih sedikit dari CK+ dan JAFFE mempunyai keseimbangan jumlah

gambar setiap kelasnya. Dalam hal ini pengukuran menggunakan perhitungan

performance matrics accuracy.

Dari Gambar 4.28 terdapat makna yang dapat diambil bahwasanya ukuran

gambar dengan ukuran input 224×224 cenderung mencapai akurasi tertinggi dari

ukuran input yang lainnya. Semakin kecil ukuran input gambar maka model akan

menghasilkan akurasi yang semakin menurun, karena semakin sedikit informasi

yang diperoleh oleh model dalam mengenali pola datasets. Dalam hal ini ukuran

dari sebuah arsitektur juga berpengaruh terhadap ukuran input 224×224 dalam

penelitian ini arsitektur disesuaikan dengan ukuran input tersebut. Selain itu

JAFFE cenderung menghasilkan akurasi terbaik karena JAFFE mempunyai data

varian yang lebih sedikit dari CK+ dan JAFFE mempunyai keseimbangan jumlah

gambar setiap kelasnya. Dalam hal ini pengukuran menggunakan perhitungan

performance matrics F1-Score.


107

4.2.2 Hasil Evaluasi Model Berbasis Transfer Learning

Evaluasi dalam penelitian ini akan membandingkan hasil testing dari

ketujuh model arsitektur pre-trained Deep Convolutional Neural Network dalam

mengenali pola dari datasest CK+ dan JAFFE. Yang mana akan disajikan berupa

classification report dan confusion matrix. Klasifikasi model khususnya pre-

trained ini akan disajikan dalam bentuk performance matrix berupa recall,

precision, dan F-1 Score. Recall menunjukkan jumlah objek antara actual dan

prediction secara akurat, precision menunjukkan jumlah objek yang dipilih secara

benar dan F-1 score menunjukkan rata-rata dari recall dan precision

(Abdurrohman et al., 2018). Dalam penerapannya untuk pengenalan ekspresi

wajah, evaluasi ini dapat membantu mengidentifikasi akurasi dari setiap tujuh

jenis ekspresi wajah sehingga dapat mengenali emosi seseorang dengan akurat.

Dalam evaluasi ini disajikan hasil confusion matrix dari hasil eksperimen model

menggunakan tujuh model pre-trained untuk setiap datasets CK+ dan JAFFE.

Berikut ini Gambar 4.29 confusion matrix dari model untuk model pre-trained

yang berbeda dari CK+. Kemudian dilanjutkan Gambar 4.30 confusion matrix dari

model pre-trained yang berbeda dari dastest JAFFE.


108

EfficientNet-B0 VGG-19

VGG-16 MobileNet-V2

Inception-V3 ResNet-152
109

Gambar 4.29 Hasil Confusion Matrix model pre-trained CK+


DenseNet-201.

Pada Gambar 4.29 merupakan hasil confusion matrix dari setiap tujuh

model pre-trained yang berbeda dari EfficientNet-B0, VGG-19, VGG-16,

MobileNet-V2, inception-V3, ResNet-152, dan DenseNet khususnya dalam

mengenali data CK+. Dapat dilihat prediksi beserta aktual hasil akurasi testing

data. Selanjutnya berikut ini adalah rincian yang diberikan label 0-6: 0 = Anger, 1

= disgust, 2 = fear, 3 = happy, 4 = neutral, 5 = sadness, 6 = surprise. Jika untuk

menentukan model pengenalan ekspresi wajah model dengan hasil pemrosesan

menggunakan arsitektur model EfficientNet-B0 menghasilkan akurasi terbaik

yaitu 99.30% .
110

VGG-19
EfficientNet-B0

VGG-16 MobileNet-V2

Inception-V3 ResNet-152
111

DenseNet-201

Gambar 4.30 Hasil Confusion Matrix model pre-


trained JAFFE.

Pada Gambar 4.30 merupakan hasil confusion matrix dari setiap tujuh

model dari arsitektur pre-trained yang berbeda, dengan setiap model yang

berbeda dengan input 224×224 ketika akan masuk pada arsitektur. Dapat dilihat

prediksi beserta aktual hasil akurasi testing data. Selanjutnya berikut ini adalah

rincian yang diberikan label 0-6: 0 = surprise, 1 = disgust, 2 = fear, 3 = happy, 4 =

sadness, 5 = neutral, 6 = angry. Jika untuk menentukan model pengenalan

ekspresi wajah model dengan hasil pemrosesan menghasilkan akurasi terbaik

yaitu 100.0% khususnya untuk datasets JAFFE menggunakan arsitektur VGG-16

dan VGG-19.

Berikutnya adalah mengevaluasi di mana menjelaskan hasil classification

report yang akan melihat hasil dari masing-masing dari model dengan tujuh

model arsitektur pre-trained berbeda untuk setiap datasets CK+ dan JAFFE.
112

Berikut tabel 4.5 menyajikan hasil classification report untuk melihat hasil dari

precision, recall, F1-Score beserta setiap dari akurasi model.

Tabel 4.5 Hasil Classification Report Pre-Trained Model.

CK+ JAFFE

Model Precision Recall F-1 Accuracy Precision Recall F-1 Accuracy

Score Score

EfficientNet- 0.99 0.99 0.99 0.99 0.85 0.81 0.81 0.85

B0 (Tan &

Le, 2019)

VGG-19 0.97 0.99 0.98 0.98 1.00 1.00 1.00 1.00

(Mahendran

& Vedaldi,

2016)

VGG-16 0.96 0.98 0.97 0.98 1.00 1.00 1.00 1.00

(Simonyan &

Zisserman,

2015)

MobileNet- 0.56 0.50 0.48 0.66 0.98 0.96 0.97 0.95

V2 (Sandler

et al., 2018)

ResNet-152 0.82 0.74 0.75 0.84 0.82 0.79 0.75 0.77

(He et al.,

2016)
113

CK+ JAFFE

Model Precision Recall F-1 Accuracy Precision Recall F-1 Accuracy

Score Score

Inception-V3 0.34 0.39 0.35 0.55 0.87 0.87 0.85 0.86

(Szegedy et

al., 2016)

DenseNet- 0.49 0.48 0.46 0.64 0.76 0.66 0.68 0.77

201 (Huang

et al., 2018)

Tabel 4.5 merupakan hasil classification report dari testing model yang

berisi hasi akurasi dari tujuh model pre-trained Deep Convolutional Neural

Network. Di mana setiap model dalam tabel menunjukkan perbandingan akurasi

antara datasets CK+ dan JAFFE. Berdasarkan classification report tersebut,

model yang menggunakan Arsitektur EfficientNet-B0 cenderung memiliki akurasi

terbaik yaitu 99.30% untuk datasets CK+, selain itu dengan menggunakan

EfficientNet proses fitting cenderung lebih cepat karena EfficientNet-B0 memiliki

parameter yang lebih sedikit. Dalam hal ini untuk VGG-19 dan VGG-16

Memiliki akurasi testing 100% dalam mengenali pola JAFFE, selain itu model

VGG-19 dalam proses fitting membutuhkan waktu yang lebih lama kerena VGG

arsiektur mempunyai parameter yang lebih banyak. Tetapi ketika EfficientNet-B0

mengenali pola JAFFE akurasi berkurang 15%, itu berarti setiap model pre-

trained belum tentu cocok digunakan untuk mengenali pola datasets yang

berbeda. Selain itu ketika menggunakan VGG-19 dan VGG-16 akurasi testing
114

untuk mengenali pola CK+ berkurang 2%. Dalam hal ini dengan inisialisasi

hyperparameter yang sama dan metode yang sama yaitu teknik tranfer learning

tujuh model pre-trained Deep CNN.

Pada Gambar 4.31 berisi visualisasi nilai akurasi dari setiap model yang

menggunakan tujuh model Deep CNN berbeda dengan datasets CK+ dan JAFFE.

Kemudian Pada Gambar 4.33 berisi visalisasi nilai performance matrix F-1 Score

dari setiap model yang menggunakan tujuh arsitektur pre-trained yang berbeda

dengan datasets CK+ dan JAFFE.

Accuracy(%)
120.00%

100.00%

80.00%

60.00%

40.00%

20.00%

0.00%

CK+ in Selected 10% Test Sample JAFFE in Selected 10% Test Sample

Gambar 4.31 Hasil Akurasi Model Pre-Trained Deep CNN.


115

F-1 Score
120.00%

100.00%

80.00%

60.00%

40.00%

20.00%

0.00%

CK+ in Selected 10% Test Sample JAFFE in Selected 10% Test Sample

Gambar 4.32 Hasil F-1 Score Model Pre-Trained Deep CNN.

4.3 Evaluasi Testing

Dalam menguji kinerja pengujian ini, peneliti menggunakan F1-Score

sebagai Persamaan. Pengukuran performance metric karena baik untuk mengukur

dataset yang tidak seimbang dimana jumlah setiap Class tidak seimbang. Tabel

4.6 menunjukkan klasifikasi hasil pelatihan yang dilakukan oleh model

EfficientNet-B0 pada 132 gambar uji dari kumpulan data CK+. di mana model

memprediksi citra kesedihan salah diklasifikasikan sebagai jijik, dan kejutan salah

diklasifikasikan sebagai kesedihan.


116

Tabel 4.6 Menampilkan klasifikasi F1-Score dari setiap kelas ekspresi dalam set
data CK+.

True Label
Expression AN CO DI AF HA NE SA SU
Anger (AN) 13 0 0 0 0 0 0 0

Contempt 0 5 0 0 0 0 0 0
(CO)
Disgust (DI) 0 0 17 0 0 0 1 0

Fear 0 0 0 8 0 0 0 0
(AF)
Happy (HA) 0 0 0 0 21 0 0 0

Neutral (NE) 0 0 0 0 0 33 0 0

Sadness 0 0 0 0 0 0 10 1
(SA)
Surprise (SU) 0 0 0 0 0 0 0 24

Tabel 4.7 Menampilkan gambar yang salah diklasifikasikan dari set data CK+.
Misclassified Image: True Class →
Predicted Class
Samp
les
From
CK+

Sadness Surprise
Disgust Sadness

Tabel 4.7 menunjukkan hanya dua gambar yang salah diklasifikasikan

oleh salah satu model EfficientNet-B0 dan keandalan model dalam membuat

prediksi yang dibangun dengan pendekatan pembelajaran transfer yang diusulkan

oleh peneliti. Gambar pertama termasuk dalam label jenis ekspresi, tetapi model

memprediksi sebagai ekspresi jijik. Dalam hal ini, model kesulitan dalam

membedakan gambar kesedihan hampir seperti ekspresi jijik khusus untuk

ekspresi wajah orang yang disajikan pada tabel 5 ini, tetapi secara visual ekspresi
117

kesedihan dan jijik memiliki hampir kesamaan seperti alis berkerut. ke bawah atau

kadang ke atas dan bibir cenderung mengecil, gigi tertutup, dan kulit wajah

tampak berkerut. Gambar kedua termasuk dalam label jenis ekspresi terkejut,

tetapi model prediksi termasuk dalam ekspresi kesedihan. Mengapa hal ini bisa

terjadi karena khusus untuk wajah seseorang pada gambar kedua ini, ketika

terkejut model memprediksi terlihat sedih karena alisnya seolah mengekspresikan

kesedihan, namun secara visual ekspresi terkejut dan sedih memiliki sedikit

perbedaan yang hanya terletak pada keadaannya. alis cenderung ke atas melebar

dan kulit keriput ke atas.

Pada analisis Tabel 4.7 dapat disimpulkan bahwa keadaan ekspresi setiap

orang cenderung berbeda dan dipengaruhi oleh warna kulit, tingkat usia, dan suku

tertentu. Pada tipikal lainnya, ketika dua orang memiliki ekspresi yang sama,

belum tentu kedua orang tersebut memiliki ekspresi yang terlihat sama secara

visual karena setiap orang memiliki karakter yang unik dalam setiap ekspresi

mereka, meskipun sebagian besar dari setiap ekspresi dapat diklasifikasikan.

Dalam kasus tertentu, misalnya, secara visual mengekspresikan ketakutan tetapi

model memprediksi orang tersebut terkejut, dan manusia juga mengalami

kesulitan dalam memprediksi ekspresi semua orang.

4.4 Evaluasi Perbandingan dengan Metode sebelumnya

Pada bagian ini peneliti membandingkan kinerja metode pengenalan

ekspresi wajah yang telah diusulkan dengan metode yang ada dengan penelitian

sebelumnya khususnya pada datasets CK+ dan JAFFE. Dalam hal ini pada

pembagian datasets untuk data training, data validation dan data testing juga

disajikan dalam Tabel 4.6 untuk setiap model start-of-the-art. Khususnya dalam
118

hal ini analisis khususnya untuk menggunakan metode deep learning. Sebagian

besar metode yang ada menggunakan datasets JAFFE berukuran relatif kecil

dengan hanya 213 sampel dengan tujuh kelas ekspresi wajah yang relatif

mempunyai kelas seimbang. Selain itu datasets CK+ mempunyai jumlah sampel

yang lebih banyak dengan 1256 gambar ekspresi wajah dalam tujuh kelas. Tetapi

CK+ relatif memiliki jumlah data yang tidak seimbang pada tiap kelasnya. Teknik

pembagian datasets untuk memisahkan pelatihan, validasi dan sampel uji

digunakan dalam penelitian ini dan tercantum pada Tabel 4.8 dengan CK+ dan

JAFFE. Setelah itu masing-masing metode dengan teknik yang digunakan dalam

pemilihan ekstraksi fitur dan klasifikasi fitur disajikan dalam tabel untuk

membantu memahami kemahiran kinerja teknik transfer learning.

Tabel 4.8 Perbandingan akurasi metode yang diusulkan dengan Penelitian


sebelumnya pada datasets CK+ dan JAFFE.

Akurasi
(Penulis., Total Datasets: Training Testing Metode Untuk Esktrasi fitur dan
Tahun) Set dan Testing Set Klasifikasi Fitur
CK+ JAFFE
Hibrid arsitektur deep learning
(Jain et al., 2018) 213: 80%+20% - 94.91%
menggunakan CNN dan RNN
Meningkatkan Citra, Peningkatan
(Bendjillali et al., citra, ekstraks(Jain et al., 2018)i
213: 80%+20% - 98.63%
2019) fitur dan klasifikasi menggunakan
CNN
(Moravčík & Tipe VGG untuk ekstraksi fitur dan
Basterrech, 2021)
981: 80%+10%+10% 95.00% -
klasifikasi dengan Neural Network
981: 10-fold cross Berbasis Convolutional Neural
(Xu et al., 2020) 98.99% -
validation testing Network dan Edge Computing
Teknik yang Transfer leaning pada pre-trained
diusulkan EfficientNet-B0 model
1256: 80%+10%+10% 99.30% -
Menggunakan Menerapkan Pendekatan fine-
EfficientNet-B0 tuning
Teknik yang Transfer leaning pada pre-trained
diusulkan 213:80%+10%+10% - 100.0% VGG-19 model Menerapkan
Menggunaakn Pendekatan fine-tuning
119

Akurasi
(Penulis., Total Datasets: Training Testing Metode Untuk Esktrasi fitur dan
Tahun) Set dan Testing Set Klasifikasi Fitur
CK+ JAFFE
VGG-19
BAB V SIMPULAN DAN SARAN

5.1 Simpulan

Dalam penelitian ini model pengenalan ekspresi wajah menggunakan

arsitektur model EfficientNet-B0 dengan menggunakan teknik transfer learning

dengan strategi fine-tuning diusulkan. Dalam hasil eksperimen, menggunakan

tujuh arsitektur Deep Convolutional Neural Network (CNN) pre-trained yang

berbeda pada kedua datasets ekspresi wajah CK+ dan JAFFE dengan tampilan

profil frontal dan ukuran input gambar 224×224, metode yang diusulkan

menunjukkan akurasi pengenalan ekspresi yang sangat tinggi khususnya model

EfficientNet-B0 menghasilkan akurasi testing 99.30% pada datasets CK+.

Selanjutnya VGG-19 menghasilkan akurasi testing 100.0% pada datasets JAFFE.

Pada penelitian pengenalan ekspresi wajah, akurasi merupakan penilaian yang

utama dalam menentukan emosi dari ekspresi seseorang yang tepat, kemudian f-1

score juga digunakan untuk menentukan performance matrix jenis ekspresi antara

data predict dan actual khusus untuk datasets CK+ yang tidak seimbang.

Dalam hal ukuran resolusi gambar untuk input dengan ukuran 224×224

relatif mempunyai akurasi yang tinggi dengan menggunakan model CNN standar.

Untuk CK+ dengan ukuran input 224×224 model CNN standar akurasi testing

mencapai 98.22%. Ketika menggunakan JAFFE dengan ukuran 224×224 akurasi

testing 100.0%. Semakin kecil ukuran input gambar maka akurasi testing

cenderung menurun dari 224×224 ke 48×48 piksel. Karena semakin kecil resolusi

gambar model dalam mengenali pola saat pelatihan semakin cenderung bias.

120
121

5.2 Saran

Dalam penelitian ini mempunyai kekurangan bahwasanya model hanya

belajar dari gambar ekspresi wajah dengan tampilan dari depan saja, sehingga

model akan bias ketika data testing merupakan gambar profil wajah yang terlihat

dari samping. Penelitian selanjutnya diharapkan model dapat memprediksi secara

akurat ekspresi wajah seseorang dengan tampilan profil atau wajah dari sudut

pandang yang berbeda-berbeda. Selain itu, penelitian selanjutnya terkait dengan

model pengenalan ekspresi wajah dapat diperluas ke pengenalan emosi dari

ucapan atau gerakan tubuh untuk mencakup aplikasi industri yang akan muncul

kedepannya.
DAFTAR PUSTAKA
Abdurrohman, H., Dini, R., & Muharram, A. P. (2018). Evaluasi Performa
metode Deep Learning untuk Klasifikasi Citra Lesi Kulit The
HAM10000. In Seminar Nasional Instrumentasi, Kontrol dan Otomasi
(SNIKO).
Akhand, M. A. H., Roy, S., Siddique, N., Kamal, M. A. S., & Shimamura, T.
(2021). Facial emotion recognition using transfer learning in the deep
CNN. Electronics (Switzerland), 10(9), 1–19.
https://doi.org/10.3390/electronics10091036
Atabansi, C. C., Chen, T., Cao, R., & Xu, X. (2021). Transfer Learning
Technique with VGG-16 for Near-Infrared Facial Expression
Recognition. Journal of Physics: Conference Series, 1873(1).
https://doi.org/10.1088/1742-6596/1873/1/012033
Bendjillali, R. I., Beladgham, M., & Merit, K. (2019). Improved Facial
Expression Recognition Based on DWT Feature for Deep CNN.
https://doi.org/10.3390/electronics8030324
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for
Image Recognition. 2016 IEEE Conference on Computer Vision and
Pattern Recognition Deep. https://doi.org/10.1109/CVPR.2016.90
Huang, G., Liu, Z., Maaten, L. van der, & Weinberger, K. Q. (2018). Densely
Connected Convolutional Networks. July, 1–9.
https://doi.org/10.1109/CVPR.2017.243
Hung, J. C., Lin, K. C., & Lai, N. X. (2019). Recognizing learning emotion
based on convolutional neural networks and transfer learning. Applied
Soft Computing Journal, 84, 105724.
https://doi.org/10.1016/j.asoc.2019.105724
Indolia, S., Goswami, A. K., Mishra, S. P., & Asopa, P. (2018). Conceptual
Understanding of Convolutional Neural Network- A Deep Learning
Approach. Procedia Computer Science, 132, 679–688.
https://doi.org/10.1016/j.procs.2018.05.069
Izard, C. E., Woodburn, E. M., Finlon, K. J., Krauthamer-ewing, E. S.,
Grossman, S. R., Woodburn, E. M., Finlon, K. J., Krauthamer-ewing, E.
S., & Grossman, S. R. (2011). Emotion Review. International Society
for Research on Emotion, 3, No. 1 (, 44–52.
https://doi.org/10.1177/1754073910380972
Jain, N., Kumar, S., Kumar, A., Shamsolmoali, P., & Zareapoor, M. (2018).
Hybrid deep neural networks for face emotion recognition. Pattern
Recognit. Pattern Recognition Letters.
https://doi.org/10.1016/j.patrec.2018.04.010

122
123

Karphaty, A. (n.d.). Convolutional Neural Networks for Visual Recognition.


Khan, A., Sohail, A., Zahoora, U., & Saeed, A. (2020). A survey of the
recent architectures of deep convolutional neural networks. In Artificial
Intelligence Review (Vol. 53, Issue 8). Springer Netherlands.
https://doi.org/10.1007/s10462-020-09825-6
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet
Classification with Deep Convolutional Neural Networks. Proceedings
of the 25th International Conference on Neural Information Processing
Systems, 1, 1097–1105. https://doi.org/10.5555/2999134.2999257
Li, H., & Zhang, L. (2018). MULTI-EXPOSURE FUSION WITH CNN
FEATURES Hui Li and Lei Zhang Department of Computing , The
Hong Kong Polytechnic University. 2018 25th IEEE International
Conference on Image Processing (ICIP), 1723–1727.
Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., Ambadar, Z., Matthews, I., &
Ave, F. (2010). The Extended Cohn-Kanade Dataset (CK+): A complete
dataset for action unit and emotion-specified expression. 2010 IEEE
Computer Society Conference on Computer Vision and Pattern
Recognition - Workshops, 4(July), 94–101.
https://doi.org/10.1109/CVPRW.2010.5543262
Lyons, M. J., Kamachi, M., & Gyoba, J. (1997). Japanese Female Facial
Expressions (JAFFE) Database of digital images. 21(3), 295–316.
https://doi.org/https://doi.org/10.6084/m9.figshare.5245003.v2
Lyons, M. J., Kamachi, M., & Gyoba, J. (2020). Coding Facial Expressions
with Gabor Wavelets (IVC Special Issue).
https://doi.org/10.5281/zenodo.4029679
Mahendran, A., & Vedaldi, A. (2016). Visualizing Deep Convolutional
Neural Networks Using Natural Pre-images. International Journal of
Computer Vision, 120(3), 233–255. https://doi.org/10.1007/s11263-016-
0911-8
Minaee, S., Minaei, M., & Abdolrashidi, A. (2021). Deep-Emotion: Facial
Expression Recognition Using Attentional Convolutional Network.
Sensors, 21, 1–16. https://doi.org/doi.org/10.3390/s21093046
Moravčík, E., & Basterrech, S. (2021). Image-Based Facial Emotion
Recognition Using Convolutional Neural Networks and Transfer
Learning. 5th International Scientific Conference on Intelligent
Information Technologies for Industry, IITI 2021, 330 LNNS, 3–14.
https://doi.org/10.1007/978-3-030-87178-9_1
Nadhir, M., Wahab, A. B., Nazir, A., Tan, A., Ren, Z., Halim, M., Noor, M.,
& Akbar, M. F. (2021). Efficientnet-Lite and Hybrid CNN-KNN
124

Implementation for Facial Expression Recognition on Raspberry Pi.


IEEE Access, 9, 134065–134080.
https://doi.org/10.1109/ACCESS.2021.3113337
Oquab, M., Bottou, L., Laptev, I., & Sivic, J. (2014). Learning and
Transferring Mid-Level Image Representations using Convolutional
Neural Networks. IEEE Conference on Computer Vision and Pattern
Recognition, 1717–1724. https://doi.org/10.1109/CVPR.2014.222
Pune, S. L. (2021). Facial Expression Recognition with Convolutional
Neural Networks. International Journal of Innovative Science and
Research Technology, 6(7), 324–328.
Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.-C. (2018).
MobileNetV2: Inverted Residuals and Linear Bottlenecks.
http://arxiv.org/abs/1801.04381
Sayette, M. A., Cohn, J. F., Wertz, J. M., Perrott, M. A., & Parrott, D. J.
(2001). A PSYCHOMETRIC EVALUATION OF THE FACIAL
ACTION CODING SYSTEM FOR ASSESSING SPONTANEOUS
EXPRESSION. Journal of Nonverbal Behavior, 25(3), 167–185.
https://doi.org/10.1023/A:1010671109788
Sharma, H. K., Choudhury, T., Kandwal, A., Mor, A., Sharma, P., Ahmed,
M. E., & Ahlawat, P. (2021). CNN Based Facial Expression
Recognition System Using Deep Learning Approach. Lecture Notes in
Networks and Systems, 291, 391–405. https://doi.org/10.1007/978-981-
16-4284-5_34
Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks
for Large-Scale Image Recognition. Published as a Conference Paper
at ICLR 2015, 1–14. https://arxiv.org/abs/1409.1556
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan,
D., Vanhoucke, V., & Rabinovich, A. (2015). Going Deeper with
Convolutions. 2015 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 1–9. https://doi.org/10.1109/CVPR.2015.7298594
Szegedy, C., Vanhoucke, V., & Shlens, J. (2016). Rethinking the Inception
Architecture for Computer Vision. 2016 IEEE Conference on Computer
Vision and Pattern Recognition (CVPR).
https://doi.org/10.1109/CVPR.2016.308
Tan, M., & Le, Q. v. (2019). EfficientNet: Rethinking model scaling for
convolutional neural networks. 36th International Conference on
Machine Learning, ICML 2019, 2019-June, 10691–10700.
https://arxiv.org/abs/1905.11946
125

Wikanningrum, A., Rachmadi, R. F., & Ogata, K. (2019). Improving


Lightweight Convolutional Neural Network for Facial Expression
Recognition via Transfer Learning. 2019 International Conference on
Computer Engineering, Network, and Intelligent Multimedia, CENIM
2019 - Proceeding, 2019-Novem.
https://doi.org/10.1109/CENIM48368.2019.8973312
Xu, G., Yin, H., & Yang, J. (2020). Facial Expression Recognition Based on
Convolutional Neural Networks and Edge Computing. 2020 IEEE
Conference on Telecommunications, Optics and Computer Science,
TOCS 2020, 226–232.
https://doi.org/10.1109/TOCS50858.2020.9339739
View publication stats

126

DAFTAR RIWAYAT HIDUP

IDENTITAS DIRI
Nama : Islam Nur Alam
Tempat/Tanggal lahir : Malang /24 Juli 1996
Alamat : Perumahan Puri Indah Blok i2 no 8 Batu Kota
Batu
No Telp/Email : : 081335154133/islam.alam@binus.edu

PENDIDIKAN FORMAL
1. (2020), lulus Universitas Islam Negeri Maulana Malik Ibrahim Malang
2. (2014), lulus MA NEGERI KOTA BATU
3. (2010), lulus MTs NEGERI BATU
4. (2007), lulus SD NEGERI BEJI 02
PENDIDIKAN INFORMAL/PELATIHAN/KURSUS
1. (2021), mengikuti pelatihan AWS Certified Cloud Practioner
2. (2021), mengikuti pelatihan Alibaba Cloud Associate Cloud Computing
3. (2019), mengikuti pelatihan Machine Learning Development dari PT
Lintarsara
PENGALAMAN KERJA
1. (2021 s/d Sekarang), Lecture Spesialis Faculty Development Program
Binus University
2. (2017 s/d 2018), Algorithm and Programming Practicum Assistant 1
KEGIATAN ORGANISASI
1. (2016 s/d 2019), sebagai Ketua Devisi Mutli Media HMJ Teknik
Informatika

Anda mungkin juga menyukai