net/publication/364330227
CITATIONS READS
0 509
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Image-based Facial Emotion Recognition Indonesian Mixed Emotion Datasets (IMED) Using Lightweight CNN and Transfer Learning Approach View project
All content following this page was uploaded by Islam Nur Alam on 14 October 2022.
RESEARCH
ISLAM NUR ALAM
2301978444
RESEARCH
2301978444
i
PERSETUJUAN PEM BIM BING
RESEARCH
2301978444
Pembimbing:
ii
PERNYATAAN DEWAN PENGUJI
Pernyataan Dewan Penguji ini diambil oleh mahasiswa setelah sidang tesis dan
melakukan perbaikan sesuai notulen sidang di Layanan Mahasiswa Binus Online
Learning.
Halaman ini memuat Pernyataan Dewan Penguji tentang hasil ujian tesis
mahasiswa dengan nama dan tanda tangan masing-masing anggota dewan
penguji. Lembar pernyataan ini diletakkan setelah lembar persetujuan
pembimbing (iii) tanpa diberi nomor halaman, dan tidak perlu dimasukkan ke
dalam daftar isi.
iii
PERNYATAAN ORI SINA LITAS
HALAMAN PERNYATAAN
STUDENTS STATEMENT
Saya, nama Islam Nur Alam, NIM 2301978444 menyatakan dengan sebenar-
benarnya bahwa tesis saya berjudul “Metode Transfer Learning pada Deep
Convolutional Neural Network (DCNN) untuk Pengenalan Ekspresi Wajah”
adalah merupakan gagasan dan hasil research saya sendiri dengan bimbingan
Dosen Pembimbing.
Saya juga menyatakan dengan sebenarnya bahwa isi tesis ini tidak merupakan
jiplakan dan bukan pula dari karya orang lain, kecuali kutipan dari literatur dan
atau hasil wawancara tertulis yang saya acu dan telah saya sebutkan di Daftar
Acuan dan Daftar Pustaka.
Demikian pernyataan ini saya buat dengan sebenarnya dan saya bersedia
menerima sanksi apabila ternyata pernyataan saya ini tidak benar.
I, also truly acknowledge that content of this thesis are not copyed and not from
another people work, except my citation from literature or written interview result
and already write in reference list and bibliography list. That’s my acknowledge
were truly made and if in reality this acknowledge weren’t true, I willing sanction.
iv
PERNYATAAN HAK CIPTA
PERNYATAAN
STATEMENT
Dengan ini saya,
v
KATA PENGANTAR
Puji serta syukur penulis ucapkan kepada Allah SWT karena atas kehendaknya
penulis dapat menyelesaikan tesis yang berjudul “METODE TRANSFER
LEARNING PADA DEEP CONVOLUTIONAL NEURAL NETWORK (DCNN)
UNTUK PENGENALAN EKSPRESI WAJAH”.
Pada kesempatan kali ini penulis ingin mengucapkan rasa terima kasih kepada
istri penulis, Chyntia Ayu Maulina, kedua orang tua, dan seluruh kerabat penulis
yang telah mendukung penulis dalam proses penyusunan tesis ini. Tidak lupa juga
penulis ingin mengucapkan terima kasih kepada:
1. Bapak Prof. Dr. Ir. Harjanto Prabowo, M.M. selaku Rektor Universitas Bina
Nusantara.
2. Bapak Dr. Sani Muhamad Isa, S.Si., M.Kom. selaku Dean of Binus Graduate
Program dan Head of Master of Information Technology.
4. Bapak Dr. Ir. Derwin Suhartono, S.Kom., MTI. selaku Head of Computer
Science Department.
8. Semua pihak yang secara langsung atau tidak langsung membantu penulis
dalam penyusunan tesis ini yang tidak dapat disebutkan satu persatu.
vi
ABSTRAK
ABSTRACT
Facial expression recognition systems are very useful in many industrial fields,
including health, product marketing, target advertising, school counseling
systems, and lie detection. This study proposes the use of seven pre-trained Deep
Convolutional Neural Network (CNN) architectures for the manufacture of facial
expression recognition models, namely EfficientNet-B0, VGG-19, VGG-16,
MobileNet-V2, Inception-V3, ResNet-152, DenseNet- 201. In making this facial
expression recognition model, transfer learning method is used with a fine-tune
strategy. In this technique, first, the EfficientNet-B0 architecture on the lower
layers is used as a feature extraction, meaning that the layer is left frozen.
Furthermore, layers close to the output layer are unfreezed several layers to be
retrained with CK+ and JAFFE datasets, each of which consists of seven strategy
classes, this is called fine-tuning. Transfer learning techniques are especially
good for working on small sample datasets such as CK+ and JAFFE. In this
proposed research, the EfficientNet-B0 model has succeeded in obtaining a
testing accuracy of 99.30% on CK+. Furthermore, using the VGG-19 model
architecture to recognize the JAFFE pattern, it achieved an accuracy of 100.0%.
In this case, from the evaluation results of the facial expression recognition model
that has been proposed above using the EfficienNet architecture, it produces
better performance than the previous DCNN architecture so that the system can
be applied in the industrial world.
vii
ABSTRAK
Sistem pengenalan ekspresi wajah sangat berguna dalam banyak bidang industri
antara lain dalam bidang kesehatan, pemasaran produk, target periklanan, school
conselling system, dan deteksi kebohongan. Dalam penelitian ini mengajukan
penggunaan tujuh arsitektur pre-trained Deep Convolutional Neural Network
(CNN) untuk pembuatan model pengenalan ekspresi wajah yaitu EfficientNet-B0,
VGG-19, VGG-16, MobileNet-V2, Inception-V3, ResNet-152, DenseNet-201.
Dalam pembuatan model pengenalan ekspresi wajah ini digunakan metode
transfer learning dengan strategi fine-tune. Dalam teknik ini pertama arsitektur
EfficientNet-B0 pada layer-layer bagian bawah digunakan sebagai feature
exctraction artinya layer dibiarkan frozen. Selanjutnya layer-layer yang dekat
dengan lapisan output dilakukan unfreeze beberapa layer untuk dilatih ulang
dengan datasets CK+ dan JAFFE yang masing-masing terdiri dari tujuh kelas
strategi inilah yang disebut dengan fine-tuning. Teknik transfer learning sangat
baik digunakan untuk bekerja pada sampel datasets yang sedikit seperti CK+ dan
JAFFE. Dalam penelitian yang telah diajukan ini model EfficientNet-B0 berhasil
memperoleh akurasi testing mencapai 99.30% pada CK+. Selanjutnya
menggunakan arsitektur model VGG-19 untuk mengenali pola JAFFE mencapai
akurasi 100.0%. Dalam hal ini dari hasil evaluasi model pengenalan ekspresi
wajah yang telah diusulkan di atas dengan menggunakan arsitektur EfficienNet
menghasilkan kinerja yang lebih baik dari arsitektur DCNN sebelumnya sehingga
sistem dapat diterapkan di dunia industri.
viii
DAFTAR ISI
ix
2.5.3 VGG-16 ........................................................................................... 29
2.5.4 MobileNet-V2 ................................................................................. 30
2.5.5 ResNet-152 ...................................................................................... 31
2.5.6 Inception-V4 ................................................................................... 32
2.5.7 DenseNet-201.................................................................................. 33
2.6 Tinjauan Pustaka .....................................................................................34
2.6.1 Penelitian Terkait ............................................................................ 34
2.6.2 Analisis Tinjauan Pustaka ............................................................... 48
BAB III METODOLOGI ..................................................................................... 52
3.1 Kerangka Pikir .........................................................................................52
3.2 Skenario Eksperimen Model ...................................................................54
3.2.1 Desain Model .................................................................................. 55
3.2.2 Implementasi Model Pre-Trained Deep CNN ................................ 56
3.3 Benchmark Datasets ................................................................................58
3.4 Pre-processing Data ................................................................................60
3.4.1 Augmentasi Gambar........................................................................ 60
3.4.2 Pembagian CK+ dan JAFFE ........................................................... 61
3.5 Implementasi CNN Model Sequential.....................................................65
3.5.1 Fine-Tuning ..................................................................................... 66
3.5.2 Proses Training Stage dan Testing Stage ........................................ 69
3.5.3 Inisialisasi Hypertparameter ........................................................... 70
3.6 Evaluasi State of the Art Model ...............................................................72
3.6.1 Evaluasi Model Sequential .............................................................. 73
3.6.2 Evaluasi Model Berbasis Transfer Learning .................................. 74
3.6.3 Evaluasi Tahap Testing ................................................................... 76
BAB IV HASIL DAN PEMBAHASAN .............................................................. 79
4.1 Hasil Implementasi .......................................................................................79
4.1.1 Hasil Pengujian Model Standar CNN ................................................... 79
4.1.2 Hasil Pengujian Model Berbasis Transfer Learning ............................ 87
4.2 Evaluasi ......................................................................................................100
4.2.1 Hasil Evaluasi Model Standar CNN ................................................... 100
4.2.2 Hasil Evaluasi Model Berbasis Transfer Learning............................. 107
4.3 Evaluasi Testing .........................................................................................115
4.4 Evaluasi Perbandingan dengan Metode sebelumnya .................................117
x
BAB V SIMPULAN DAN SARAN .................................................................... 120
5.1 Simpulan .....................................................................................................120
5.2 Saran ...........................................................................................................121
DAFTAR PUSTAKA .......................................................................................... 122
xi
DAFTAR GAMBAR
Gambar 2.1 Pipeline Secara Umun Model Pengenalan Ekspresi wajah (Rizwan
Ahmed Khan, 2013). ............................................................................................... 10
Gambar 2.2 Arsitektur Convolutional Neural Network (Islam Nur Alam, 2020). . 12
Gambar 2.3 Urutan Lapisan CNN. .......................................................................... 13
Gambar 2.4 Visualisasi Input dan Filter pada Convolutional Neural Network
(CNN)...................................................................................................................... 15
Gambar 2.5 ReLU Function (Karpathy, 2018)........................................................ 16
Gambar 2.6 Max Pooling Sample (Karpathy, 2018). ............................................. 17
Gambar 2.7 Arsitektur EfficientNet-B0 (Blog AI Google, 2020). ......................... 25
Gambar 2.8 Arsitektur EfficientNet (Feature Extractor). ...................................... 26
Gambar 2.9 Struktur Model VGG-19. .................................................................... 29
Gambar 2.10 Konvolusi standar (a) dibagi menjadi dua lapisan: depthwise
convolution (b) dan pointwise convolution (c) untuk membuat filter terpisah
secara mendalam (depthwise) (Mark Sandler, 2019). ............................................ 31
Gambar 2.11 Blok Residual Network (Kaiming He, 2016). ................................... 32
Gambar 2.12 Arsitektur DenseNet (Chenquan Gan, 2018). ................................... 34
Gambar 3.1 Kerangka Pikir Penelitian.................................................................... 52
Gambar 3.2 Research Model................................................................................... 55
Gambar 3.3 Desain Model ...................................................................................... 56
Gambar 3.4 Diagram Alir Implementasi Arsitektur Deep CNN............................. 57
Gambar 3.5 Spesifikasi Mesin untuk Proses Training. ........................................... 58
Gambar 3.6 Kelas Ekspresi Datasets CK+ ( Patrick Lucey, 2010). ....................... 59
Gambar 3.7 Contoh gambar dari dataset JAFFE. ................................................... 59
Gambar 3.8 Augmentasi gambar............................................................................. 60
Gambar 3.9 Arsitektur Standar CNN. ..................................................................... 66
Gambar 3.10 Proses Fine-Tuning pada lapisan Classifier. ..................................... 67
Gambar 3.11 Skema Proses Training dan Testing. ................................................. 69
Gambar 4.2 Akurasi Training dan Loss CK+ 360×360 Piksel. .............................. 83
Gambar 4.1 Akurasi Training dan Loss CK+ 224×224. ......................................... 83
Gambar 4.3 Akurasi Training dan Loss CK+ 128×128. ......................................... 83
Gambar 4.5 Akurasi Training dan Loss CK+ 64×64. ............................................. 84
xii
Gambar 4. 4 Akurasi Training dan Loss CK+ 48×48. ............................................ 84
Gambar 4.6 Akurasi Training dan Loss JAFFE 360×360. ..................................... 84
Gambar 4.8 Akurasi Training dan Loss JAFFE 224×224. ..................................... 85
Gambar 4.7 Akurasi Training dan Loss JAFFE 128×128. ..................................... 85
Gambar 4.9 Akurasi Training dan Loss JAFFE 64×64. ......................................... 85
Gambar 4.10 Akurasi Training dan Loss JAFFE 48×48. ....................................... 86
Gambar 4. 11 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan EfficientNet-B0. .......................................... 90
Gambar 4.12 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan EfficientNet-B0. ....................................... 91
Gambar 4.13 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-19. ...................................................... 92
Gambar 4.14 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-19. ................................................... 92
Gambar 4.16 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-16. ...................................................... 93
Gambar 4. 15 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-16. ................................................... 93
Gambar 4.17 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan MobileNet-V2. ............................................. 94
Gambar 4. 18 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan MobileNet-V2. .......................................... 95
Gambar 4.20 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan ResNet-152. ................................................. 96
Gambar 4. 19 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan ResNet-152. .............................................. 96
Gambar 4.21 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan Inception-V3. ............................................... 97
Gambar 4.22 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan Inception-V3. ........................................... 98
Gambar 4.24 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan DenseNet-201. ............................................. 99
xiii
Gambar 4.23 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan DenseNet-201........................................... 99
Gambar 4.25 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
CK+. ...................................................................................................................... 101
Gambar 4.26 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
JAFFE. .................................................................................................................. 103
Gambar 4.27 Hasil Akurasi Model. ...................................................................... 105
Gambar 4.28 Hasil Akurasi Model. ...................................................................... 105
Gambar 4.29 Hasil Confusion Matrix model pre-trained CK+ ........................... 109
Gambar 4.30 Hasil Confusion Matrix model pre-trained JAFFE. ........................ 111
Gambar 4.31 Hasil Akurasi Model Pre-Trained Deep CNN. ............................... 114
Gambar 4.32 Hasil F-1 Score Model Pre-Trained Deep CNN. ............................ 115
xiv
DAFTAR TABEL
Tabel 2.1 Arsitektur jaringan baseline EfficientNet-B0 ......................................... 28
Tabel 2.2 Struktur Model VGG-16. ........................................................................ 30
Tabel 2.3 Perbandingan Riset Mengenai Model Pengenalan Ekspresi Wajah. ...... 42
Tabel 3.1 Jumlah Gambar Tiap Kelas Dataset CK+(data training). 61
Tabel 3.2 Jumlah Gambar Tiap Kelas Datasets CK+ (validation training). .......... 62
Tabel 3.3 Jumlah Gambar Tiap Kelas Datasets CK+ (data testing). ...................... 62
Tabel 3.4 Jumlah Gambar Tiap Kelas Datasets JAFFE (data training). ............... 63
Tabel 3.5 Jumlah Gambar Tiap Kelas Datasets JAFFE (data validation). ............ 64
Tabel 3.6 Jumlah Gambar Tiap Kelas Datasets JAFFE (data testing). ................. 64
Tabel 3.7 Inisialisasi Hyperparameter Tunning...................................................... 71
Tabel 3.8 Hasil Testing akurasi model CNN Standar. ............................................ 73
Tabel 3.9 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode
Training yang Berbeda dalam Transfer Learning. ................................................. 74
Tabel 3.10 Perbandingan Akurasi Testing CK+ dan JAFFE dengan Model Pre-
trained yang Berbeda. ............................................................................................. 75
Tabel 4.1 Perbandingan Akurasi Testing Model Standar CNN Menggunakan
CK+ dan JAFFE. ..................................................................................................... 82
Tabel 4.2 Perbandingan Akurasi Testing dengan EfficientNet-B0 untuk Mode
Training yang Berbeda dalam Transfer Learning. ................................................. 88
Tabel 4.3 Perbandingan akurasi testing dengan tujuh model Deep Convolutional
Neural Network pada CK+ dan JAFFE. ................................................................. 89
Tabel 4.4 Hasil Classification Report Standar CNN. ........................................... 104
Tabel 4.5 Hasil Classification Report Pre-Trained Model. .................................. 112
Tabel 4.6 Menampilkan klasifikasi F1-Score dari setiap kelas ekspresi dalam set
data CK+. .............................................................................................................. 116
Tabel 4.7 Menampilkan gambar yang salah diklasifikasikan dari set data CK+. . 116
Tabel 4.8 Perbandingan akurasi metode yang diusulkan dengan Penelitian
sebelumnya pada datasets CK+ dan JAFFE. ........................................................ 118
xv
BAB I PENDAHULUAN
ekspresi ini, Dapat menjadi penunjang keputusan dalam suatu tindakan terhadap
seseorang (Izard et al., 2011). Ekspresi wajah merupakan suatu keadaan alami
yang dirasakan manusia karena sebagai akibat dari suatu tindakan yang
dialaminya. Lebih jauh lagi ekspresi seseorang yang bersifat universal karena
perbedaan wajah dari ras suku dan warna kulit. Pada akhir abad ke-20, Ekman dan
wajah secara umum yaitu: bahagia, takut, terkejut, jijik, sedih, dan marah (Sayette
et al., 2001).
dalam bidang Computer Vision Merupakan topik yang terus berlanjut dalam
penelitiannya. Para peneliti tertarik untuk meneliti dan membuat model FER atau
Kemajuan terbaru saat ini dengan peningkatan perangkat keras berupa GPU
Sehingga untuk membuat model ekspresi wajah dapat teratasi. Tapi fokus dalam
2021).
1
2
akurasi yang rendah ketika memproses datasets ekspresi wajah yang besar dan
banyak variasi data. Hingga sampai saat ini para peneliti berlomba-lomba untuk
mempelajari fitur dari data berupa gambar atau data yang tidak terstruktur yang
emosi dasar. DenseNet juga telah teruji dalam ImageNet mencapai akurasi 77%.
mana FaceLiveNet mendapat akurasi 68.60% pada Dataset ekspresi wajah yang
pertanyaan yang sulit dijawab, karena tergantung dari masalah yang akan
diselesaikan. Masalah tertentu cocok diatasi dengan teknik deep learning tapi
tidak cocok untuk machine learning. Dalam machine learning proses ekstraksi
fitur menggunakan algoritma yang relatif lama dan hanya baik untuk datasets
yang relatif sedikit. Metode machine learning tidak cocok untuk mempelajari fitur
gambar ekspresi wajah yang bersimensi tinggi karena banyaknya fitur yang ada
dalam gambar juga membutuhkan dataset yang besar di mana banyak varian di
dalamnya. Tetapi algoritma deep learning CNN Lebih mahal dalam hal komputasi
daripada penerapan machine learning. Untuk melatih deep CNN tergantung pada
ukuran dataset yang digunakan dan kebutuhan komputasi yang besar. Dalam hal
Algoritma deep CNN Merupakan jenis algoritma yang sangat baik untuk
memproses data yang tidak terstruktur khususnya gambar ekspresi wajah manusia.
Namun dalam hal ini membuat model pengenalan ekspresi wajah menggunakan
CNN hanya beberapa lapisan terbukti bisa, Tapi jika membuat model dengan
menambahkan lapisan yang lebih dalam akan lebih baik dalam hal akurasi secara
manusia dan ekspresi seseorang yang begitu sulit dibedakan sehingga mempe
tugas klasifikasi(Khan et al., 2020). Dalam hal ini, melatih algoritma CNN yang
dengan menambahkan jumlah lapisan pada lapisan feature extraction secara terus
menerus tidak dapat meningkatkan akurasi pada tingkat tertentu karena masalah
efektivitas gradien pada convolution layer, dalam hal ini gradien menyusut seiring
Model deep CNN pra-terlatih yang banyak digunakan adalah VGG-16 (Simonyan
(Szegedy et al., 2015) dan DenseNet-161 (Huang et al., 2018). Tetapi melatih
model arsitektur deep CNN begitu dalam juga membutuhkan banyak daya dan
Oleh karena itu untuk mengatasi masalah beberapa arsitektur CNN yang
terkenal sebelumnya, tim google brain khususnya Tan dan Le membuat arsitektur
berbasis algoritma deep CNN yang disebut EfficientNet. Arsitektur ini telah
dilakukan penskalaan tidak hanya kedalaman, tetapi juga lebar dan resolusi
jaringan. Sehingga model akan seimbang dari segi dimensi yang relatif terhadap
dimensi yang lain. Dengan cara ini EfficientNet hanya memerlukan kebutuhan
Oleh karena itu, sebuah penelitian yang dilakukan oleh (Tan & Le, 2019)
dengan hati-hati dapat menghasilkan kinerja yang lebih baik dan efficient.
Berdasarkan pengamatan yang dilakukan (Tan & Le, 2019), mereka mengusulkan
Dalam tesis ini arah penelitian yang dilakukan adalah membuat arsitektur
Selanjutnya adalah yang mana setiap tujuh model Deep CNN pada lapisan bawah
dengan unfreeze beberapa layer tertentu dengan melatihnya ulang pada datasets
CK+ dan JAFFE. Proses ini disebut transfer learning yang mana teknik transfer
learning sangat baik untuk bekerja pada datasets yang relatif kecil dalam
peneltitian ini yaitu CK+ dan JAFFE. Peneliti akan melakukan eksperimen
CK+ dan JAFFE untuk setiap model mulai dari arsitektur standar CNN dan Deep
CNN.
learning.
Network (CNN).
Ruang lingkup yang diteliti dalam penelitian ini adalah sebagai berikut:
2020). Dua datasets ini terdiri dari gambar yang dikategorikan berdasarkan
emosi yang ditunjukkan pada tujuh ekspresi wajah yaitu senang, netral,
Neural Network dan metode transfer learning dari tujuh arsitektur pre-
masalah penting terutama untuk menganalisis emosi atau perasaan manusia dalam
kondisi tertentu, seperti saat menonton adegan film atau bermain game komputer.
Pengenalan ekspresi wajah berbasis citra merupakan salah satu masalah penting
manusia. Para peneliti tertarik pada FER, karena memahami emosi seseorang
clinical practice. Kemajuan terbaru dalam perangkat keras komputer dan teknik
pengenalan ekspresi wajah yang lebih efisien. Model pengenalan ekspresi wajah
9
10
yang efektif untuk mengenali emosi seseorang. Ekspresi wajah sangat penting
non-verbal. Dengan hanya 43 otot wajah yang berbeda, manusia dapat membuat
6.000 hingga 10.000 ekspresi. Pada tahun 1872, Charles Darwin berhipotesis
bahwa manusia telah berevolusi ekspresi wajah dari nenek moyang hewan. Lebih
jauh, ekspresi tertentu bersifat universal lintas budaya, meskipun ada perbedaan
ras, bahasa dan perbedaan warna kulit. Pada akhir abad ke-20, Ekman dan Friesen
universal: senang, takut, terkejut, jijik, sedih, dan marah (Nadhir et al., 2021).
Pada Gambar 2.1 dapat dilihat bahwa strategi pipeline secara umum untuk
wajah dari gambar. Proses feature extraction dilakukan untuk mencari pola dalam
Gambar 2.1 Pipeline Secara Umun Model Pengenalan Ekspresi wajah (Rizwan
Ahmed Khan, 2013).
11
(CNN)
seperti pola aktifitas neuron pada otak manusia yang saling terhubung antar
neuron cara kerja ini diilhami oleh visual cortex. Dimana setiap neuron akan
merespon setiap rangsangan dengan batas bidang visual yang dikenali sebagai
bidang reseptif. Dari kumpulan bidang tersebut berupa tupang tindih berguna
pada kedalaman suatu gambar. Semakin dalam suatu gambar maka semakin
pola yang di dapat akan semakin jelas terbentuk. Nilai dari pola berbentuk value
inilah yang nantinya akan dikonversi menjadi vektor dan kemudian masuk pada
tahap klasifikasi (Li & Zhang, 2018). Pada proses classifier ini model ConvNets
pooling, diikuti oleh sejumlah layer yang terhubung sepenuhnya (fully connected
layer).
12
Gambar 2.2 Arsitektur Convolutional Neural Network (Islam Nur Alam, 2020).
Berdasarkan Gambar 2.2, arsitektur dari algoritma CNN dibagi menjadi 2
tahapan proses. Pada proses feature learning, secara umum ada 3 lapisan proses
spesifik. Ketiga layer tersebut memiliki urutan proses yang tidak harus selalu
sama, dalam artian prosesnya bisa dimodifikasi sesuai dengan kebutuhan. Tapi
umumnya proses feature learning ini diawali dengan melakukan proses konvolusi
antara matriks input dengan kernel ukuran tertentu kemudian dilanjutkan oleh
filter untuk mendapatkan informasi dari gambar sehingga dihasilkan feature map
proses akan berlanjut sesuai kedalaman layer model CNN yang ditentukan.
membatasi arsitektur dengan cara yang lebih sederhana untuk diterapkan. Secara
lebih khusus, layer-layer model CNN mempunyai neuron yang saling yang mana
tersusun dalam ruang tiga dimensi yaitu: Lebar (W), Tinggi (H), Kedalaman
(D). Kedalaman arsitektur CNN pada tiga dimensi volume aktivasi, bukan
13
kedalaman dari jaringan neural penuh, yang dapat merujuk pada jumlah total layer
dalam jaringan.
sebuah filter atau kernel konvolusi (filter) berukuran tertentu sebuah inputan
perkalian gambar wajah berupa citra abu-abu dengan channel satu dengan filter
(CONV), ReLU, Pooling Layer (POOL) dan Fully Connected Layer (FC).
Seperti namanya, lapisan konvolusional ini terdiri dari blok bangunan dasar yang
nilai piksel di area itu, lalu ubah menjadi satu piksel. Menerapkan ke setiap area
piksel pada gambar untuk menghasilkan gambar baru yang disebut feature maps.
14
Idenya adalah bahwa piksel dalam gambar baru menyertakan informasi tentang
di area tersebut. Konvolusi memiliki dua sifat penting yaitu size dan step size.
Konvolusi berikut diterapkan pada gambar 3×3 dan langkah 1, yang memiliki
ukuran 3×3 karena berjalan pada kisi 3×3 piksel. Ukuran langkahnya adalah 1
karena jarak antar daerah yang diterapkan konvolusi adalah 1. Dengan kata lain,
langkah 1 untuk mengubah gambar 5×5 menjadi gambar 3×3. Pertanyaan yang
muncul adalah bagaimana konvolusi mengubah grid piksel menjadi satu piksel
(Indolia et al., 2018). pada dasarnya melewati grid piksel melalui perceptron,
dengan kata lain, mendapatkan jumlah piksel input yang dibobot. Bagian kanan
berikut, tidak ada bias (atau offset), tetapi seperti halnya perceptron, konvolusi
biasanya juga memiliki output dari konvolusi yang diterapkan ke input tunggal
akan tetap sebagai piksel tunggal, dan output dari konvolusi yang diterapkan ke
baru. Oleh karena itu, kedalaman keluaran dari lapisan konvolusional adalah
Gambar 2.4 Visualisasi Input dan Filter pada Convolutional Neural Network
(CNN).
Dari visualisasi Gambar 2.4 digambarkan di sebelah kiri merupakan input
merupakan convolutional filter yang juga disebut sebagai kernel. Ini merupakan
convolutional layer dengan filter maka akan mendapatkan matriks yang dikenal
sebagai feature map. Operasi convolution dilakukan dengan menggeser filter ini
dalam input.
ℎ = 𝐷𝑓(𝑤 ∗ 𝑥) (2.1)
16
pada layer, dan f mewakili fungsi aktivasi. Wi D [Wi1; Wi2; WiK], K adalah
matriks berat dengan M menjadi ukuran jendela dan N menjadi jumlah saluran
convolutional layer.
layer berikutnya adalah ReLU layer. Pada Gambar 2.5 ktivasi ReLU (Rectified
Linear Unit) adalah lapisan aktivasi yang saat ini banyak digunakan untuk model
CNN yang mengaplikasikan fungsi f(x) = max (0, x) yang berarti fungsi ini
melakukan thresholding dengan nilai nol terhadap nilai piksel pada input citra.
Aktivasi ini membuat seluruh nilai piksel yang bernilai kurang dari nol pada suatu
citra akan dijadikan 0 (Indolia et al., 2018). Layer ini meningkatkan sifat non-
linear dari model dan jaringan keseluruhan tanpa mempengaruhi bidang reseptif
aktivasi ReLU. Jadi nilai-nilai di feature map akhir sebenarnya bukan jumlah,
Feature Map sebagai nilai input kemudian mengolahnya dengan berbagai macam
operasi statistik berdasarkan nilai piksel terdekat. Pada model CNN, lapisan
turut dalam arsitektur model CNN dapat secara progresif mengurangi ukuran
volume output pada Feature Map, sehingga mengurangi jumlah parameter dan
lapisan Pooling yang paling umum adalah dengan menggunakan filter atau kernel
beroperasi pada setiap irisan dari input. Bentuk seperti ini akan mengurangi
Feature Map hingga 75% dari ukuran aslinya (Indolia et al., 2018). Contoh
Dalam model CNN setelah proses convolution layer dan ReLE kemudian
gambar input ke dalam beberapa kelas berdasarkan pada dataset pelatihan yang
berlabel, fully connected layer berupa vektor angka 1D. Dengan meratakan output
dari layer kumpulan terakhir ke vektor dan itu menjadi input ke fully connected
layer. Sehingga pada saat meratakan merubah isi angka 3D menjadi sebuah vektor
1D.
merupakan bentuk lain dari algoritma logistic regression yang dapat digunakan
untuk klasifikasi lebih dari dua kelas. Standar klasifikasi yang umum dilakukan
oleh algoritma Logistic Regression adalah tugas untuk klasifikasi kelas biner.
Pada Softmax bentuk persamaan (2.2) yang muncul adalah sebagai berikut ini.
𝑒 (2.2)
𝑓𝑖(𝑍) =
∑𝑘𝑒
Notasi 𝑓𝑖 menunjukkan hasil fungsi untuk setiap elemen ke-j pada vektor
keluaran kelas. Argumen 𝑍 adalah hipotesis yang diberikan oleh model pelatihan
agar dapat diklasifikasi oleh fungsi softmax. Softmax juga memberikan hasil yang
lebih intuitif dan juga memiliki interpretasi probabilistik yang lebih baik
probabilitas untuk semua label. Dari label yang ada akan diambil sebuah vektor
nilai bernilai riil dan merubah menjadi vektor dengan nilai antara nol dan satu
2.4 Hyperparameters
kesalahan yang tidak meningkat saat fase validasi atau testing. Dengan
2. Dropout
akurasi yang tinggi dan loss yang rendah selama pelatihan tetapi berfungsi
dengan menetapkan awal dropout 20% akan menghasilkan titik awal yang
pada jaringan yang lebih besar, ini dikarenakan memberikan model lebih
1. Learning Rate
Semakin tinggi nilai learning rate maka proses training berjalan cepat
2. Momentum
3. Epoch
4. Batch Size
terjadi. Secara default untuk ukuran dalam proses fitting 32. Ukuran
sebagai berikut:
ukuran 3x3, 5x5, dan 7x7 juga bisa semuanya tergantung dengan aplikasi
22
atau jaringan yang digunakan. Filter yang dimaksud adalah filter pada 3D
filter kecil pada layer awal, dan semakin bertambah jumlahnya ketika
filter/kernel yang akan digunakan. Jika stride bernilai 1, maka filter akan
informasi pada feature map setelah proses convolution dalam layer CNN.
Sebuah fungsi yang digunakan untuk mengukur perbedaan antara hasil yang
1 (2.3)
𝐸(𝑊) = − [𝑦 log 𝑃(𝑥𝑖 = 𝑘)) + (1 − 𝑦 ) 𝑙𝑜𝑔(1 − 𝑃(𝑥
𝑛
= 𝑘))]
di mana W adalah bobot matriks convolutional dan layer yang terhubung
dan k adalah indeks kelas. Jika sampel dengan milik kelas k, yik D 1; selain itu
yik D 0. P (xi D k) adalah probabilitas input xi milik kelas k yang diprediksi oleh
𝜕𝐸(𝑊) (2.4)
𝑤 =𝑤 − 𝛼( )
𝜕𝑊
(CNN) berawal dari LeNet pada tahun 1990 dalam sebuah karya yang sangat
inovatif oleh Yann LeCun (LeCun & Bengio, 1995) yang mana merupakan
banyak hasil dari pengulangan neural network di mana telah sukses sejak tahun
CNN bernaman LexNet, di mana saat itu digunakan untuk membuat aplikasi
pengenalan karakter.
Pada abad ke-20 ini arsitektur CNN mulai banyak dikembangkan dengan
dimulai dari AlexNet pada tahun 2012 dan terus bertumbuh hingga sekarang. Tim
24
AI.
2.5.1 EfficientNet
antara atau di atas model konvolusional dalam yang sudah tersedia. Dengan cara
komputasi dan sumber daya. Selain itu, setelah kedalaman tertentu, bobot
cenderung jenuh tanpa perbaikan lebih lanjut dalam model (Tan & Le, 2019).
Oleh karena itu, untuk mengatasi masalah ini Mingxing Tan & Quoc V. Le
seperti tidak hanya kedalaman, tetapi juga lebar dan resolusi. Idealnya
yang mirip dengan MobileNetV2 dan MnasNet. Perbaikan pada model baseline
Penjelasan singkat tentang apa itu MBConv dan blok bangunan lain untuk
EfficientNet tersebut. Blok MBConv tidak lain adalah blok Inverted Residual
kembali ke bentuk input yang akan ditambahkan (tujuan blok residual adalah
kebalikan dari blok residual. Jadi awalnya mengambil masukan berdimensi rendah
bahwa, dalam blok residual asli, lapisan ekspansi di antara hanyalah detail
rendah sehingga kebutuhan komputasi dan waktu berjalan lebih sedikit. Arsitektur
dasar EfficientNet terdiri dari lapisan dalam blok MBConv seperti yang
berubah dari struktur lebar ke sempit ke struktur lebar sehubungan dengan jumlah
saluran. Lapisan terakhir dibawa kembali ke bentuk input yang akan ditambahkan.
Tujuan blok residual adalah untuk mencegah hilangnya gradien. Alasan di balik
penggunaan blok Inverted Residual adalah bahwa, dalam blok residual asli,
masih dapat dikaitkan pada dimensi rendah sehingga kebutuhan komputasi dan
waktu berjalan lebih sedikit. Arsitektur dasar EfficientNet terdiri dari lapisan
sebagai:
⨀∙ (2.5)
𝒩= … ℱ (𝑋〈 , , 〉)
panjang jaringan (Li), lebar (Ci), dan / atau resolusi (Hi , Wi) tanpa mengubah Fi
baru, tetapi masih tetap merupakan ruang desain yang besar untuk mengeksplorasi
lebar, kedalaman, dan resolusi jaringan. Simbol dengan kepala adalah parameter
kedalaman jaringan adalah cara paling umum yang digunakan oleh banyak
berkurang untuk ConvNets yang sangat dalam. (c) - Lebar (w) : Penskalaan lebar
jaringan biasanya digunakan untuk model ukuran kecil. Jaringan yang lebih luas
cenderung dapat menangkap fitur yang lebih halus dan lebih mudah untuk dilatih.
Namun, jaringan yang sangat luas tetapi dangkal cenderung mengalami kesulitan
dalam menangkap fitur tingkat yang lebih tinggi. (d) - Resolusi (r): Dengan
gambar input resolusi lebih tinggi, ConvNets berpotensi menangkap pola yang
lebih halus. Resolusi yang lebih tinggi meningkatkan akurasi, tetapi perolehan
akurasi berkurang untuk resolusi yang sangat tinggi. Secara intuitif, untuk gambar
bidang reseptif yang lebih besar yang dapat membantu menangkap fitur serupa
yang menyertakan lebih banyak piksel dalam gambar yang lebih besar. Sejalan
28
dengan itu, kami juga harus meningkatkan lebar jaringan saat resolusinya lebih
Penskalaan tidak mengubah operasi lapisan, oleh karena itu lebih baik
untuk terlebih dahulu memiliki jaringan dasar yang baik dan kemudian
mengoptimalkan akurasi dan Floating Point Operation Per Second (FLOPS) (Tan
& Le, 2019). Arsitekturnya mirip dengan M-NASNet karena telah ditemukan
menggunakan ruang pencarian yang serupa. Lapisan / blok jaringan seperti yang
Model baseline yang baik diperlukan untuk lebih membangun model di atasnya
2.5.2 VGG-19
VGG-19 adalah arsitektur jaringan yang merupakan bentuk dari variasi VGG-
pada tahun 2014 dan menjadi terkenal kerena mendapatkan peforma yang baik
menggunakan MaxPooling dengan pool size sebesar 2×2 dan 3 fully connected
layer denngan nilai 4096, 4096, 1000 lalu size image untuk memiliki ukuran
224×224 piksel. Detail struktur model VGG19 dapat dilihat pada Gambar 2.9.
2.5.3 VGG-16
Seperti pada Tabel 2.2 ukuran filter yang digunakan adalah 3×3 dan filter pada
30
max pooling layer adalah 2×2. Untuk stride yang digunakan adalah 1 pada layer
convolution dan 2 pada layer max polling. Untuk jumlah kernel pada masing-
masing layer dikurangi yaitu pada layer 1 dan 2 menggunakan jumlah 16 sehingga
maxpooling-nya berjumlah 16. Pada layer 3 dan 4 menggunakan jumlah 32, dan
pada layer 5, 6, 7 menggunakan jumlah 64. Hasil dari convolution layer kemudian
2.5.4 MobileNet-V2
(CNN) yang dapat digunakan untuk mengatasi kebutuhan akan computing resource
berlebih. Seperti namanya, Mobile, para peneliti dari Google membuat arsitektur
CNN yang dapat digunakan untuk ponsel. Perbedaan mendasar antara arsitektur
MobileNet dan arsitektur CNN pada umumnya adalah penggunaan lapisan atau
layer konvolusi dengan ketebalan filter yang sesuai dengan ketebalan dari input
31
Gambar 2.10 Konvolusi standar (a) dibagi menjadi dua lapisan: depthwise
convolution (b) dan pointwise convolution (c) untuk membuat filter terpisah
secara mendalam (depthwise) (Mark Sandler, 2019).
2.5.5 ResNet-152
Residual neural network atau yang biasa disebut sebagai Resnet adalah salah
satu jenis arsitektur yang cukup populer, arsitektur ini dibuat oleh Kaiming He et
al. Arsitektur ini cukup revolusioner pada saat itu karena arsitektur ini menjadi
32
state-of-the-art pada saat itu tidak hanya dalam klasifikasi, namun dalam semua
yang memiliki kedalaman tinggi adalah salah satu hal penting dalam membangun
model CNN yang memiliki performa yang baik, namun model CNN yang memiliki
kedalaman yang tinggi juga memiliki masalah, yaitu vanishing gradient problem,
yaitu suatu keadaan di mana hasil gradien yang dipelajari oleh model, tidak dapat
pertama tidak menerima gradien apa-apa, atau secara singkatnya, hal ini
menyebabkan suatu CNN tidak dapat belajar dari error yang telah dikalkulasi.
Hal yang diusung oleh Kaiming He et al. pada saat itu adalah dengan
menggunakan sesuatu yang bernama residual block, blok ini adalah blok yang ada
pada tiap lapis arsitektur CNN Resnet dan menjadi fundamental dari arsitektur
tersebut, gambaran dari blok ini dapat dilihat pada Gambar 2.11.
2.5.6 Inception-V4
(CNN) yang sangat kompleks karena direkayasa dengan cukup berat. Arsitektur ini
menggunakan banyak teknik untuk meningkatkan kinerja; baik dari segi kecepatan
varian Inception murni tanpa koneksi residual dengan kinerja pengenalan citra
pada Inception-v2.
2.5.7 DenseNet-201
memproses suatu data yang ada dalam bentuk banyak array, contohnya gambar
warna yang terdiri dari 2D array yang mengandung piksel dalam tiga macam
warna yaitu Red, Green, dan Blue seperti yang diilustrasikan pada gambar 1. Ada
berbagai macam bentuk CNN adalah 1D untuk sinyal dan urutan biasanya
digunakan untuk bahasa, 2D untuk gambar atau suara; dan 3D untuk video atau
memiliki koneksi L - satu antara setiap lapisan dan lapisan berikutnya jaringan
arsitektur CNN membuat bidang computer vision dan image processing menjadi
begitu power-full dalam hal model pengenalan ekspresi wajah berbasis gambar.
Oleh karena itu, banyak peneliti berlomba-lomba dalam membuat model dari
Arsitektur CNN yang efektif dan efisien dalam hal komputasi dan akurasi yang
tinggi.
algoritma CNN dengan model pre-trained tipe VGG-16 dengan teknik transfer
yang dipelajari dari gambar resolusi tinggi dari kumpulan data besar dari
ImageNet dapat digunakan untuk melatih model kumpulan data yang relatif kecil
dilatih dan divalidasi pada dataset Oulu-CASIA NIR yang terdiri dari enam
ekspresi wajah yang berbeda, dan akurasi uji rata-rata 98,11% tercapai.
dengan memanfaatkan artificial neural network (ANN) dan lebih khusus lagi
of-the-art akurasi jaringan tunggal sebesar 70,10% pada dataset FER2013 tanpa
diadopsi dengan mengganti lapisan atas padatnya yang kompatibel dengan label
ekspresi wajah kemudian model di fine-tune dengan data emosi wajah (Akhand et
al., 2021). Peneliti menghadirkan solusi Strategi pipeline baru, di mana pelatihan
lapisan padat diikuti dengan menyetel masing-masing blok DCNN yang telah
yang diusulkan diverifikasi pada model DCNN pre-trained yang berbeda dengan
menggunakan datasets dari gambar wajah KDEF dan JAFFE. Metode yang
diusulkan mencapai akurasi yang luar biasa pada kedua dataset dengan model
terbaik yang dicapai oleh DenseNet-161 pada set uji KDEF dan JAFFE masing-
dari data yang relatif sederhana transfer model pengenalan emosi dasar dari
dataset JAFFE dan KDEF ke dataset emosi dasar FER2013 dan diperoleh akurasi
sebesar 70,02%. Kedua, dengan menggunakan model pengenalan emosi dasar dari
tingkat akurasi uji mencapai 91,93%, yaitu 12,9% lebih tinggi dari tingkat akurasi
data uji. Basis data asli dari emosi belajar tidak mempertimbangkan bahwa siswa
akan memiliki pengecualian seperti di atas alis, mata tertutup dan tangan
memegang dagu. Untuk memperbaiki situasi ini, setelah menambahkan basis data
setelah menggabungkan semua data citra siswa dengan database emosi belajar
asli, model dibangun kembali dan diperoleh tingkat akurasi mencapai 84,59%.
dapat mencapai akurasi pengenalan yang tinggi dengan mengolah gambar yang
CNN, dua arsitektur itu terdiri dari base model dan final model. Base model dibuat
sebagai variasi dari arsitektur standar LetNet-5. Arsitektur yang dievaluasi kedua
38
didasarkan pada VGG. Network arsitektur untuk base model mempunyai tiga
layer konvolusi, 3 x 3 filter, stride 1 dan mempunyai padding dengan ukuran yang
sama. Kemudian Model kedua memiliki empat blok konvolusi, di mana pada
setiap blok terdapat dua convolutional layer diikuti dengan batch normalization.
Teknik max pooling dan dropout juga diterapkan. Saat peneliti mengevaluasi
solusi yang disebut EfficientNet yang meningkatkan akurasi model dan kebutuhan
komputasi dengan menskalakan secara efisien ke segala arah seperti tidak hanya
optimal untuk setiap dimensi relatif terhadap yang lain. Dengan cara ini,
menghasilkan akurasi yang lebih baik daya komputasi yang efisien (Tan & Le,
arsitektur saraf untuk merancang jaringan dasar baru dan meningkatkannya untuk
dan efisiensi yang jauh lebih baik daripada ConvNets sebelumnya. Secara khusus,
sementara menjadi 8,4x lebih kecil dan 6,1x lebih cepat dalam inferensi daripada
ConvNet terbaik yang ada. EfficientNet juga dapat mentransfer dengan baik dan
39
dan 3 set data pembelajaran transfer lainnya, dengan urutan parameter yang lebih
sedikit.
menyelidiki apakah teknik transfer learning dari kumpulan data ukuran sedang
Network (CNN). Menggunakan arsitektur CNN berbasis residu yang ringan yang
transfer learning dari lima kumpulan data yang berbeda, termasuk CIFAR10,
Penelitian ini menggunakan dua arsitektur CNN yang ringan, ResNet-20 dan
single classifier dengan params 0.4 nilai akurasi 83.92% selain itu penggunaan
weighted ensemble adalah perhatian pekerjaan penelitian ini di masa depan untuk
menggunakan empat layer convolution disertai dengan dua layer untuk lapisan
layer sehingga tidak ada overfitting dalam fase pelatihan (Sharma et al., 2021).
diberikan oleh Pierre-Luc Carrier dan Aaron Courville dalam makalah mereka.
Kumpulan data ini tersedia di Kaggle [21]. Terdiri dari 35.887 gambar dengan
ekspresi wajah yang berbeda dari banyak orang. kumpulan data terdiri dari 7 label
yang merupakan 7 emosi dasar yang dapat diekspresikan manusia. Fungsi aktivasi
yang digunakan untuk output adalah SoftMax yang juga dikenal sebagai
diprediksi kelas (Sharma et al., 2021). Dari model yang peneliti gunakan akurasi
pelatihan yang dicapai adalah 67,5% dan akurasi validasi dicapai adalah 48,3%.
Model hybrid CNN dan k-Nearest Neighbor (KNN) dapat meningkatkan akurasi
FER. Penelitian ini penulis menggunakan model CNN-KNN hybrid untuk FER
menggabungkan data pelatihan tambahan dari JAFFE dan KDEF dengan set data
pelatihan FER-2013. Model hybrid menggunakan CNN untuk ekstraksi fitur dan
K-NN sebagai classifier dapat meningkatkan akurasi model FER pada dataset
0,6% dari model CNN dan peningkatan akurasi 0,1% dibandingkan dengan state-
of-the-art model FER yang canggih seperti CNN dengan VGG (Nadhir et al.,
2021).
convolutional network yang mampu fokus pada bagian penting dari wajah dan
wajah yang penting untuk mendeteksi emosi yang berbeda berdasarkan output
yang berbeda memiliki perbedaan yang sensitif terhadap bagian wajah yang
bagian feature extraction terdiri dari fitur dari empat lapisan convolutional,
dengan setiap dua diikuti oleh lapisan max-pooling dan fungsi aktivasi rectified
linear unit (ReLU). Kemudian diikuti oleh lapisan dropout dan dua lapisan fully
lapisan konvolusi (masing-masing diikuti oleh max-pooling dan ReLU) dan dua
Modul transformator spasial pada dasarnya mencoba untuk fokus pada bagian
gambar yang paling relevan dengan memperkirakan sampel di atas wilayah yang
ini termasuk
menerapkan teknik
augmentasi gambar
tuning arsitektur.
kemudian model di
emosi wajah
FER2013 transfer ke
model
pembelajaran
pengenalan
emosi, tingkat
akurasi uji
mencapai
91,93%, yaitu
12,9% lebih
tinggi dari
tingkat akurasi
79,03%
(CNN) dengan
dengan menggunakan
kumpulan dataset
FER2013 kemudian
pelatihan di evaluasi
menggunakan dataset
CK+
untuk mendapatkan
disebut EfficientNet,
ConvNets sebelumnya
melalui pembelajaran
transfer dan
konfigurasi ensemble.
layer menggunakan
beberapa
hyperparameter di
lapisan Convolutional
Neural Network
(CNN)
47
pengenalan ekspresi
learning model
EfficientNet-Lite.
usulkan memakai
lapisan Softmax di
EfficientNet dengan
algoritma KNN
attentional
convolutional network
48
ini menggunakan
mampu menemukan
penting untuk
mendeteksi emosi
yang berbeda
berdasarkan output
pengklasifikasi
antaranya yaitu FER2013, JAFFE, KDEF dan CK+. Penelitian yang dilakukan
(Akhand et al., 2021) merupakan penelitian dengan akurasi terbaik saat ini dengan
mengganti lapisan atas yang padat kemudian di cairkan beberapa lapisan tertentu
akurasi model. Model pengenalan ekspresi wajah yang diusulkan diverifikasi pada
pada datasets KDEF dan JAFFE yaitu 96.51% dan 99.52% (Akhand et al., 2021).
dalam komputasi yang parallel artinya jika menggunakan model sequential proses
training akan berjalan sangat lambat ini dikarenakan jaringan yang sangat dalam.
menskalakan secara efisien ke segala arah seperti tidak hanya kedalaman, tetapi
setiap dimensi relatif terhadap yang lain. Dengan cara ini, EfficientNet tidak
yang lebih baik dan daya komputasi yang lebih efisien. Dalam penelitian ini
JAFFE.
wajah dengan model standar CNN dan EfficientNet kemudian melakukan teknik
transfer learning (TL) untuk mengurangi upaya komputasi sehingga lebih efisien.
Teknik TL adalah metode yang populer untuk membangun model dengan cara
(FER) yang diusulkan dalam penelitian ini adalah model pra-terlatih EfficientNet
(Tan & Le, 2019), VGG-19 (Mahendran & Vedaldi, 2016), VGG-16(Atabansi et
semua layer kecuali beberapa layer tertetu yang dekat dengan lapisan output
51
untuk dilatih ulang dengan nilai learning rate yang kecil. Dengan strategi fine-
tune diterapakan pada setiap arsitektur model pre-trained untuk mengenali pola
Pada bab tiga ini akan dijelaskan beberapa tahapan, yaitu kerangka
berpikir dan tahapan penelitian yang dilakukan, perencanaan model yang akan
dibuat serta solusi dan rencana evaluasi model pengenalan ekspresi wajah
52
53
penelitian. dalam tahap penelitian yang pertama adalah menentukan sebuah ide
masalah dari model pengenalan ekspresi wajah. Dari masalah tersebut peneliti
wajah dengan model CNN dan menggunakan teknik transfer learning dengan
pengumpulan data dari ekspresi wajah dasar manusia yaitu, senyum, sedih,
marah, takut, jijik, terkejut, dan netral dataset ini bernama CK+ (Lucey et al.,
2010) dan JAFFE(Lyons et al., 1997). Dataset ini akan dibagi menjadi tiga bagian
yaitu data training set, validation set dan data testing set. Kemudian sebelum citra
Augmentasi gambar ini bertujuan untuk semakin banyak informasi yang diterima
oleh model tanpa memerlukan penambahan dataset tertentu sehingga model dapat
Dalam implementasi model ini gambar akan masuk sebuah model dengan
ukuran resolusi 224x224 piksel khususnya untuk teknik transfer learning. Ketika
menggunakan model CNN standar input gambar akan dibedakan dari 360×360
Network. Dimana setiap model pre-trained Deep CNN yang padat pada layer
dimasukkan. lapisan yang padat ini berisi banyak layer-layer proses konvolusi
mengurangi informasi yang penting dari citra. Setelah gambar melalui proses
pre-trained dicairkan sehingga sesuai dengan khasus dalam tujuh label ekspresi
wajah proses ini disebut feature classification. setelah itu peneliti akan
hyperparameter tuning.
menghitung rasio prediksi benar dibagi dengan rasio prediksi salah. Jika akurasi
tercapai maka model arsitektur akan disimpan untuk digunakan dalam pengujian
pembuatan model dengan metode transfer learning. Gambar 3.2 dapat dijelaskan
feature extraction kemudian dalam fase ini peneliti akan melatih model pertama
dengan menggunakan 50 epochs dan learning rate 0.0001 dalam fase ini setiap
55
arsitektur Deep CNN dalam keadaan unfreeze. Ketika model belajar dalam fase
pelatihan pertama, model akan menyimpan bobot atau informasi yang telah
dipelajari dari ImageNet. Setelah itu dilanjutkan melakukan fase pelatihan yang
kedua dengan melakukan unfreeze 6-layer setiap arsitertur pre-trained yang dekat
dengan lapisan output kemudian melatihnya ulang dengan nilai learning rate
menambahkan dari 51-100 iterasi. Dalam hal ini peneliti akan melakukan pada
tujuh arsitektur yang berbeda dalam pre-trained Deep CNN yaitu EfficientNet-
Sebelum model pada penelitian ini dibangun, perlu adanya sebuah desain
dari model yang akan dibangun terlebih dahulu. Desain model ini akan menjadi
gambaran besar seperti apa jalannya model yang akan dibangun nantinya. Dari
desain model itu akan terlihat pada bagian mana algoritma CNN dan pre-trained
56
Pre-Trained Deep CNN salah satunya EfficientNet-B0 yang padat pada layer
Kemudian lapisan yang padat ini berisi banyak layer-layer proses konvolusi pada
informasi yang penting dari citra. Setelah gambar melalui proses feature extractor
dan melatihnya ulang dengan data yang sesuai dengan khusus dalam tujuh label
ekspresi wajah proses ini disebut feature classification. Dalam tahap implementasi
model, penelti akan melakukan pembuatan model dari arsitektur pre-trained Deep
Dalam penelitian ini setiap dari model pre-trained Deep CNN digunakan
sebagai feature extractor dan sebagian layer atas yang padat di cairkan, kemudian
dilanjutkan dengan melatih ulang arsitektur pada khusus tujuh ekspresi model. Di
mana prinsip ini peneliti menggunakan layer bagian bawah yang padat dari setiap
model deep CNN sebelumnya model telah belajar dari dataset ImageNet.
digunakan dan parameter list yang akan ditentukan seperti learning rate dan
jumlah epoch training. Pada proses ini keakuratan akan dihitung menggunakan
loss function, kategori crossentropi dan perhitungan waktu training. Proses testing
dengan menggunakan konsole yang ada di google collaboration, dalam hal ini
akan dilakukan setelah proses training selesai dengan memberikan data testing
Dalam penelitian ini untuk melatih dan bereksperimen dalam hal menguji
training peneliti menggunakan GPU dari google dengan spesifikasi pada Gambar
emosi yang berbeda: takut, marah, jijik, sedih, bahagia, terkejut, netral.
Sedangkan untuk datasets JAFFE dikategorikan ke dalam tujuh kelas emosi yang
Dalam penelitian ini peneliti membagi datasets CK+ dan JAFFE menjadi
tiga bagian yaitu: 80% untuk pelatihan, 10% untuk validasi dan 10% untuk
testing. Di mana setiap bagian ditaruh dalam tiga folder yang berbeda. Data untuk
pelatihan dan validasi digunakan untuk proses training dalam pembuatan model.
Data validasi untuk proses pengujian setelah proses pembuatan model. Untuk
wajah secara frontal. Selain itu, JAFFE mengandung varian wajah secara local
dengan tujuh kelas ekspresi wajah. Dataset JAFFE berjumlah relatif kecil dengan
hanya 213 gambar frontal dari 10 individu. Dataset ini dipilih untuk melihat
bagaimana sebuah dataset kecil merespons pelatihan model. Selain itu, sejumlah
secara optimal oleh model. Dalam hal ini cropping wajah dilakukan untuk
mengambil bagian gambar wajah saja, daerah yang bukan wajah dibuang agar
tidak terlalu membebani komputasi dan informasi yang tidak penting dalam
gambar tidak dipelajari oleh model. Seperti yang diketahui, untuk mendapatkan
optimal, membutuhkan data dengan jumlah yang banyak. Data augmentasi adalah
sebuah teknik memanipulasi sebuah data tanpa kehilangan inti atau esensi data
yang digunakan peneliti untuk melatih model. Di mana dari kelas masing-masing
Marah 109
Jijik 141
Takut 59
Senang 165
Sedih 66
Terkejut 199
Netral 261
Total 1000
di dalam setiap model arsitektur dapat dilihat pada Tabel 3.2. dalam tabel ini juga
Tabel 3.2 Jumlah Gambar Tiap Kelas Datasets CK+ (validation training).
Marah 13
Jijik 18
Takut 8
Senang 21
Sedih 9
Kaget 26
Neutral 33
Total 128
digunakan untuk menguji sebuah model. Berikut ini adalah tabel 3.3 dapat dilihat
sebagai berikut.
Tabel 3.3 Jumlah Gambar Tiap Kelas Datasets CK+ (data testing).
Marah 13
Jijik 18
Takut 8
Senang 21
Sedih 9
Kaget 26
63
Neutral 33
Total 128
Berikut ini tabel 3.4 jumlah masing-masing tiap kelas JAFFE yang
Tabel 3.4 Jumlah Gambar Tiap Kelas Datasets JAFFE (data training).
Marah 24
Jijik 23
Takut 26
Senang 25
Sedih 25
Terkejut 24
Netral 24
Total 171
Selanjutnya adalah tabel 3.5 jumlah masing-masing tiap kelas JAFFE yang
Tabel 3.5 Jumlah Gambar Tiap Kelas Datasets JAFFE (data validation).
Marah 3
Jijik 3
Takut 3
Senang 3
Sedih 3
Terkejut 3
Netral 3
Total 21
Berikut ini tabel 3.6 jumlah masing-masing tiap kelas JAFFE yang
Tabel 3.6 Jumlah Gambar Tiap Kelas Datasets JAFFE (data testing).
Marah 3
Jijik 3
Takut 3
Senang 3
Sedih 3
Terkejut 3
65
Netral 3
Total 21
sequential model CNN. Kemudian model standar CNN ini digunakan untuk
mengenali pola dari datasets CK+ dan JAFFE. Yang mana CNN standar ini
piksel pada set data CK+ dan JAFFE. Ukuran tes dipilih secara acak 10% dari
data yang tersedia. Hasil yang disajikan adalah akurasi testing set terbaik untuk
total 50 epochs. Berikut ini adalah simulasi gambar 3.9 arsitektur standar CNN
model Sequential.
66
3.5.1 Fine-Tuning
kelas dari ekspresi wajah proses ini biasa disebut fine-tuning yang mana melatinya
ulang pada custom datasets CK+ dan JAFFE. Agar layer-layer pada neuron-
neuron classifier berupa jaringan neural network sesuai dengan kelas model
pengenalan ekspresi wajah dalam hal ini menambahkan 7 neuron untuk masing-
masing ekspresi. Untuk mengaktifkan nilai bobot dari hidden layer kemudian
masuk pada layer output digunakan fungsi aktivasi softmax. Berikut ini adalah
asitektur lapisan yang dekat dengan atas dari EfficienNet-B0 dan penambahan
ini yang mana sebelumnya telah belajar dari ImageNet, nantinya akan dilakukan
proses pelatihan ulang pada lapisan 7-layer yang telah dicairkan. Tujuannya
adalah model akan belajar kembali dari tujuh kelas ekspresi pada CK+ dan
JAFFE. dalam setiap blok mengandung operasi matematika seperti pada formula
convolution layer, dalam hal ini peneliti menggunakan nilai learning rate yang
kecil agar supaya apa yang telah dipelajari oleh arsitektur EfficientNet-B0 dan
Deep CNN lainnya dari ImageNet tidak rusak dan untuk menghasilkan nilai
ℎ = 𝐷𝑓(𝑤 ∗ 𝑥) (3.1)
pada layer, dan f mewakili fungsi aktivasi. Wi D [Wi1; Wi2; WiK], K adalah
matriks berat dengan M menjadi ukuran jendela dan N menjadi jumlah saluran
68
convolutional layer.
akan masuk pada fully connected layer. Dalam layer ini berisi hidden layer
jaringan neural network. Dalam layer ini digunakan formula multi layer
perceptron pada persamaan (3.2) dimana, dalam struktur ini menambahkan tiga
hidden layer yaitu input layer, hidden layer dan output layer. hidden layer dan
neuron. dalam hal ini nilai bobot terhubung pada setiap layer, dengan
(3.2)
𝑍= 𝑊 𝒴 +𝜃
unit neuron dinyatakan dengan k. Hasil yang berasal dari unit j dilambangkan
dengan yj, di mana bias unit i ditunjukkan dengan yi. Total tertimbang Z, sinyal
yang diterima dari unit i, kemudian disebarkan oleh fungsi transmisi f untuk
Pada output layer digunakan fungsi softmax dalam setiap unit neuron,
untuk menghasilkan nilai prediksi dengan nilai 0.0 sampai 1. Hal ini berguna
(3.3)
𝑍= 𝑊 𝒴 +𝜃
69
untuk mendapatkan pola dari CK+ dan JAFFE menggunakan algoritma CNN
dan pengujian training, validation dan testing. Berikut Gambar 3.4 skema
akurasi pengenalan objek yang tinggi maka arsitektur pre-trained, pada layer
bagian atas yang sebelumnya telah di cairkan yang perlu dilatih terlebih dahulu
dengan data training CK+ dan JAFFE. Tujuan dari melatih model ini adalah
untuk menemukan ciri dari setiap gambar dari ekspresi wajah CK+ dan JAFFE,
diklasifikasi. Oleh karena itu, perlu dibuat skema atau model untuk melakukan
pelatihan pada model CNN standar dan pre-trained Deep CNN agar ketika
terlatih.
Sebelum model algoritma CNN dan tujuh model arsitektur Deep CNN
terlebih dahulu. Data training yang dipanggil ini merupakan data yang sudah
diterima oleh model dari data training. Sebalum itu, perlu adanya inisialisasi
trained Deep CNN, data training dan data validation training yang dibutuhkan
harus dipanggil terlebih dahulu. Data training dan data validation training yang
dipanggil ini merupakan data yang sudah dilakukan proses data augmentation
yang mana untuk memperluas atau memperbanyak varian pada saat training.
71
yang perlu di inisialisasi untuk proses training ini adalah learning rate, batch size
dan epoch. Dalam hal inisialisasi parameter dapat dilihat pada Tabel 3.7.
Batch size Jumlah sampel data yang akan disebarkan pada jaringan
Dalam hal ini nilai learning rate digunakan adalah 0.0001 atau dengan
melakukan tunning parameter sekecil mungkin nilai learning ratenya agar ketika
melakukan retraining setelah proses fine-tuning tidak merusak apa yang telah
dipelajari oleh arsitektur Deep CNN dari ImageNet. Yang mana peneliti juga
menjadwalkan nilai learning rate telah berjalan pada beberapa epochs tertentu,
ketika model telah mencapai akurasi yang baik maka secara otomatis nilai
bobot secara iteratif yang didasarkan pada data training. Adam dapat dikatakan
momentum. Adam diperkenalkan oleh Diederik Kingma dari OpenAI dan Jimmy
Ba dari University of Toronto dalam paper ICLR 2015 mereka yang berjudul
rate adaptif, dimana Adam menghitung learning rate individu untuk parameter
yang berbeda. Nama “Adam” berasal dari “adaptive moment estimation” karena
mengadaptasi learning rate untuk setiap bobot jaringan saraf. Berikut ini adalah
adalah tahap implementasi ketika dalam proses training berupa akurasi dan
runtime dan kedua evaluasi pada tahap testing. Kemudian model terlatih
sebelumnya di load untuk digunakan dalam proses testing, yang mana menguji
73
10% dari data testing CK+ dan JAFFE dari setiap kelas ekspresi wajah kemudian
pengenalan dua datasets CK+ dan JAFFE menggunakan standar CNN. Dalam hal
ini adalah model sequential di evaluasi akurasinya dalam setiap input gambar
yang berbeda. Yang mana CNN standar ini dengan dua layer dengan dengan
ukuran input dari 360 × 360 hingga 48 × 48 piksel pada set data CK+ dan JAFFE.
Ukuran tes dipilih secara acak 10% dari data yang tersedia. Hasil yang disajikan
adalah akurasi testing set terbaik untuk total 50 epochs. Berikut ini adalah Tabel
3.8 hasil evaluasi dari arsitektur standar CNN model Sequential berupa testing
akurasi CNN standar dengan dua lapisan konvolusi pada CK+ dan JAFFE dengan
360 × 360 x x
224 × 224 x x
128 × 128 x x
64 × 64 x x
48 × 48 x x
74
transfer learning. Dalam eksperimen ini menerapkan dua mode training kedalam
masing-masing model, dengan tiap model memiliki dua cara teknik transfer
learning yang berbeda. Tabel 3.9 menyajikan dua mode teknik tranfer leaning
Fine-Tuning x x
Dalam hal ini, dataset CK+ dan JAFFE telah melalui proses augmentasi data
arsitektur model dengan lapisan atas dari EfficientNet-B0 sehingga dapat dilatih
ulang sesuai dengan khusus tujuh kelas ekspresi wajah. Parameter tuning yang
dan optimizer menggunakan fungsi Adam dengan nilai learning rate masing-
masing 0,0001 dan 0,00001 sehingga model dalam update bobot lebih lembut dan
75
model mendapatkan informasi yang lebih banyak. Model dengan tingkat learning
rate yang lebih rendah adalah solusi terbaik untuk saat melakukan fine-tuning.
setiap layer kecuali 6-layer terakhir yang dekat dengan lapisan output dari
untuk model fine-tuning ketika akan melakukan pelatihan ulang nilai learning rate
Eksperimen dilakukan untuk 10% dari datasets CK+ dan JAFFE yang dipilih
secara acak sebagai testing dan 90% sebagai set pelatihan dan validasi. Tabel 3.10
Tabel 3.10 Perbandingan Akurasi Testing CK+ dan JAFFE dengan Model Pre-
trained yang Berbeda.
Pre-Trained Deep CNN CK+ Dengan 10% Data JAFFE Dengan 10%
Model Testing Data Testing
EfficientNet-B0 x x
VGG-19 x x
VGG-16 x x
ResNet-152 X x
76
Pre-Trained Deep CNN CK+ Dengan 10% Data JAFFE Dengan 10%
Model Testing Data Testing
MobileNet-V2 x x
Inception-V2 x x
DenseNet-201 x x
akan dilakukan evaluasi dari testing untuk menguji Seberapa baik kinerja dari
setiap model Deep CNN. Dalam hal ini ini proses evaluasi tahap testing, peneliti
performance matric Precision, Receal dan F1-Score secara manual dari setiap data
testing dari gambar CK+ dan JAFFE yang diujikan terhadap setiap keluarga
model pre-trained Deep CNN. karena menggunakan F1-Score sangat baik untuk
datasets yang tidak seimbang seperti datasets CK+. Berikut ini adalag Tabel 3.11
Predict Class
Matriks
Afraid Angry Disgusted Sad Happy Surprised Neutral
Afraid x x x x x x x
Angry x x x x x x x
Actual Class
Disgusted x x x x x x x
Sad x x x x x x x
Happy x x x x x x x
Surprised x x x x x x x
Neutral x x x x x x x
77
𝑇𝑃 (3.6)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
(𝑇𝑃 + 𝐹𝑃)
𝑇𝑃 (3.7)
𝑅𝑒𝑐𝑎𝑙𝑙 =
(𝑇𝑃 + 𝐹𝑁)
𝑇𝑁 (3.9)
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 =
(𝑇𝑁 + 𝐹𝑃)
Accuracy (3.5) merupakan rasio prediksi benar (True Positive dan True
Negative). Dalam hal ini seberapa akurat setiap model pengenalan ekspresi wajah
memprediksi ekspresi yang benar (positif dan negatif) dengan keseluruhan data
ekspresi wajah. Dengan kata lain accuracy merupakan kedekatan dengan nilai
pengenalan ekspresi wajah yang dapat dalam memprediksi ekspresi yang benar
positif yang benar (True Positive) dibandingkan dengan hasil prediksi positif
secara keseluruhan. Dalam hal ini menggambarkan tingkat keakuratan model dari
ekspresi yang diminta dengan hasil prediksi ekspresi yang diberikan oleh model.
78
hasil yang diprediksi positif. Dari semua kelas ekspresi positif yang telah
diprediksi dengan benar, berapa banyak kelas ekspresi yang benar-benar positif.
Dengan menghitung nilai precision dapat menjawab “Berapa persen ekspresi yang
dalam menemukan kembali sebuah informasi. Dalam hal ini recall merupakan
rasio prediksi benar positif dibandingkan dengan keseluruhan data yang benar
yang sebenarnya?”
F1-Score (3.8) merupakan bobot rata-rata dari precision dan recall. F-1
Score atau bisa disebut juga dengan F-1 Measurement adalah metrics yang
eksperimen ketika proses pelatihan ulang dari setiap model, dan eksperimen
ketika proses testing model. Hasil eksperimen dari setiap model kemudian
pertama akan disajikan hasil akurasi dengan ukuran input gambar mulai dari 48 ×
48 sampai 360 × 360 untuk diuji menggunakan model standar CNN. Evaluasi
kedua membandingkan akurasi ketika proses transfer learning pada dua tahap
Evaluasi ketiga adalah membandingakan hasil akurasi dari setiap delapan model
hyperparameter tunning dan hasil testing dari CK+ dan JAFFE berdasarkan
Langkah selanjutnya adalah pengujian model sequential atau standar CNN. Dalam
akurasi training dan akurasi validasi terbaik ketika model sudah mencapai akurasi
79
80
terbaik digunakan fungsi early stopping ini berguna untuk ketika proses pelatihan
berlangsung jika model telah mencapai akurasi di atas 99% maka proses fitting
akan secara otomatis berhenti dalam epoch tertentu. Dalam hal ini model akan
diuji menggunakan ukuran input gambar yang berbeda mulai dari 48 × 48 sampai
360 × 360 dengan hyperparameter yang sama untuk setiap model dalam
sebagai berikut:
Optimizer: Adam
Batch Size: 32
berdasarkan inisialisasi dalam pengujian model penelitian tesis ini. Untuk ukuran
kinerja setiap model dalam melakukan proses pelatihan. Selain itu jumlah iterasi
tergantung dari berapa kali model melakukan proses fitting sehingga model
mencapai akurasi training dan validation di atas akurasi yang telah ditentukan
ambang batasnya dalam hal ini proses iterasi akan berhenti ketika model telah
Dalam hasil eksperimen dengan input gambar yang berbeda dari dua
datasets CK+ dan JAFFE memiliki akurasi yang berbeda diuji dengan standar
81
model standar CNN. Yang mana ukuran asli dari datasets CK+ adalah mempunyai
resolusi 48×48 piksel sementara ukuran asli dari JAFFE adalah 256×256 piksel.
Ketika akan masuk model gambar akan dilakukan scaling dari dari 48 × 48
Model standar CNN dengan 3-layer konvolusi. Gambar 4.1 dapat dilihat detai
Secara teori dengan resolusi gambar yang lebih tinggi model akan banyak
menerima informasi dari gambar semakin lembut, sehingga perbedaan antar kelas
dari tujuh ekspresi wajah dapat terlihat secara jelas. Sementara dengan ukuran
gambar dengan dimensi resolusi yang lebih kecil akurasi cenderung turun karena
model akan mengenali pola semakin bias, sehingga model dalam mempelajari
suatu data lebih sedikit artinya informasi dari gambar yang mempunyai resolusi
kecil akurasi model cenderung turun. Tetapi dengan ukuran input gambar besar
lebih banyak dan kompleks. Dalam Tabel 4.1 disajikan Perbandingan akurasi
testing dari model standar CNN dalam mengenali kedua datasets CK+ dan
JAFFE. Ada perbedaan terkait dengan efek perbedaan resolusi gambar dengan
hasil kinerja model yang diperoleh. Pada awalnya secara orisinal ukuran dari
gambar CK+ dan JAFFE masing-masing 254×254 dan 256×256 piksel. Jika
ukuran gambar semakin mendekati ukuran asli maka akurasi model cenderung
meningkat karena pola yang dihasilkan gambar input semakin jelas/lembut. Jika
ukuran asli dilakukan resize lebih besar maka gambar akan semakin buram/blur
82
tapi jika ukuran gambar dilakukan resize menjadi lebih kecil informasi dari setiap
64 × 64 93.66% 91.00%
48 × 48 92.19% 88.88%
Dalam Tabel 4.1 terlihat bahwa JAFFE memiliki akurasi testing tertinggi
dengan akurasi 100% untuk resolusi dengan ukuran gambar 224×224 Piksel
karena ukuran asli dari JAFFE adalah 256× 265 piksel sehingga perubahan akan
itu dengan ukuran resolusi 48×48 piksel akan masuk pada arsitektur sequential
akurasi menjadi 88.88% ini dikarenakan semakin kecil resolusi gambar maka
model akan sedikit dalam mempelajari informasi dari suatu pola dari gambar.
Untuk CK+ mempunyai akurasi testing 98.22% dengan resolusi gambar 224×224,
sementara akurasi testing terendah dari CK+ diperoleh dengan resolusi gambar
48×48 Piksel, dengan resolusi asli dari CK+ adalah 48×48 piksel. Dalam hal ini
dapat diartikan bahwasanya semakin kecil resolusi gambar maka model akan
mempelajari pola dari suatu gambar akan lebih banyak biasnya. Jika resolusi
gambar semakin besar maka model akan belajar dari suatu pola semakin lembut
dan jelas artinya lebih banyak informasi untuk gambar yang memiliki resolusi
83
lebih tinggi. Sehingga model yang mempelajari gambar yang memiliki resolusi
lebih tinggi memiliki akurasi cenderung tinggi. Berikut ini adalah Gambar 4.1
sampai Gambar 4.5 grafik dari akurasi training dan loss dari input gambar yang
berbeda mulai dari resolusi gambar 360×360 sampai 48×48 khususnya untuk
dataset CK+.
grafik akurasi training dan loss dari datasets JAFFE diuji menggunakan resolusi
gambar yang berbeda dari ukuran 360×360 sampai 48×48 dalam model CNN
nilai iterasi tertentu grafik dalam visualisasi terlihat garis kadang naik, kemudian
kadang turun kemudian melandai sehingga grafik terlihat seperti terjadi osilasi,
karena berikut ini merupakan proses update bobot atau weight secara terus
menerus sampai kinerja model mencapai optimal. Yang mana model berusaha
agar apa yang dipelajari sesuai dengan kelas ekspresi wajah. Apa artinya menaik?
Jika naik berarti model berhasil melakukan perbaikan kinerja artinya nilai bobot
mendekati nilai pola dari data setiap kelas ekspresi wajah. Apa artinya menurun?
Ketika grafik terlihat menurun maka model mengalami pengurangan nilai bobot
setiap kelas yang berbeda. Dari setiap kelas ekspresi, kekuatan akurasi mesin
dalam mengenali setiap pola mempunyai bobot yang berbeda-beda. Kadang kelas
ekspresi tertentu pola yang dipelajari oleh mesin relatif mudah sehingga bobot
mudah dipelajari sehingga menampilkan grafik yang naik begitu juga sebaliknya
87
ketika grafik mengalami penurunan, proses ini terus berlanjut sampai model telah
validation terbaik menggunakan early stopping dengan ini ketika model telah
mencapai akurasi terbaik atau yang diharapkan, model akan secara otomatis
hyper parameter yang dijalankan akan mendapatkan hasil akurasi training dan
validation sama pada setiap model arsitektur pre-trained. Dari pembahasan di atas
Optimizer: Adam
Batch Size: 32
Tabel 4.2 menyajikan dua tahap teknik tranfer leaning yang berbeda
hal ini yang digunakan secara random dari datasets CK+ dan JAFFE.
88
Dalam hal ini, dataset CK+ dan JAFFE telah melalui proses augmentasi data
arsitektur model dengan lapisan atas dari EfficientNet sehingga dapat dilatih.
Parameter tuning yang diberikan pada pelatihan ini menggunakan fungsi loss
lebih lembut dan model mendapatkan informasi yang lebih banyak. Model dengan
tingkat learning rate yang lebih rendah adalah solusi terbaik untuk saat
tuning model, penelusur ulang melakukan Unfreeze semua layer dalam model
dasar, kemudian melanjutkan ke refreeze setiap layer kecuali 5 layer terakhir dari
50 epoch untuk model feature extraction dan kemudian 50 epoch untuk model
fine-tuning ketika akan melakukan pelatihan ulang nilai learning rate akan
diinisialisasi 0,00001.
89
dan DenseNet-201). Eksperimen dilakukan untuk 10% dari data yang dipilih
secara acak sebagai validation data kemudian 80% sebagai training data, dan
10% untuk testing model. Untuk setiap masing-masing peneliti menerapkan hal
yang sama pada datasets CK+ dan JAFFE dalam hal splitting data. Dalam tabel
4.3 disajikan bahwasaanya perbandingan akurasi testing dari 10% data CK+ dan
JAFFE untuk pengujian tujuh model pre-trained yang berbeda dari hasil pelatihan
Tabel 4.3 Perbandingan akurasi testing dengan tujuh model Deep Convolutional
Neural Network pada CK+ dan JAFFE.
dengan sangat baik untuk pemrosesan cepat dalam aplikasi mobile dan ketika
melakukan pelatihan ulang EfficientNet cenderung cepat dari arsitektur yang lain.
Dalam Tabel 4.3 EfficientNet memiliki kinerja sangat bagus dalam mengenali
cenderung turun karena tidak semua arsitektur Deep CNN cocok untuk dataset
sementara untuk pengujian JAFFE memiliki akurasi testing 85% yang mana
penguji menguji 10% dari setiap data yang bersangkutan untuk testing. Dari hasil
dan JAFFE. Dalam Gambar 4.11 kemudian 4.12 dapat dilihat akurasi training dan
validation kemudian hasil training loss dan validation loss dari masing-masing
Gambar 4. 11 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan EfficientNet-B0.
91
Gambar 4.12 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan EfficientNet-B0.
Selanjutnya adalah VGG-19 merupakan model yang dikembangkan oleh
di Oxford University. Model ini menjuarai kontes ILSVRC sebagai 1st Runner-up
47-layer yang menggunakan konsep semakin banyak layer akurasi semakin baik.
di setiap layer. Dimensi yang digunakan pada filter adalah 3, 64, 128, 256, dan
512. VGG-19 mempunyai jumlah parameter 138 juta parameter. Dalam gambar
4.13 kemudian 4.14 dapat dilihat akurasi training dan validation kemudian hasil
training loss dan validation loss dari masing-masing CK+ dan JAFFE
Gambar 4.13 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-19.
Gambar 4.14 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-19.
Dalam eksperimen selanjutnya peneliti menggunakan VGG-16 yang mana
VGG-16 yang di dalamnya terdapat proses 5 blok konvolusi yang terdiri dari
padding lalu di aktivasi menggunakan relu. Kemudian setiap selesai operasi blok
dan diakhiri dengan 2 dense layer sebanyak 4096 node/neuron. Dalam hal ini
Gambar 4.15 kemudian 4.16 dapat dilihat akurasi training dan validation
kemudian hasil training loss dan validation loss dari masing-masing CK+ dan
Gambar 4.16 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan VGG-16.
Gambar 4. 15 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan VGG-16.
94
CK+ dan JAFFE. MobileNet adalah arsitektur model yang dikembangkan oleh
yang terdiri dari depthwise convolution dan pointwise convolution, kedua fitur
hanya saja versi ini menambahkan dua fitur terbaru yaitu linear bottleneck dan
informasi dari data tidak hilang pada saat diolah, sekaligus dapat mempercepat
proses setiap iterasi yang dijalankan. Dalam hal ini Gambar 4.17 kemudian 4.18
dapat dilihat akurasi training dan validation kemudian hasil training loss dan
arsitektur MobileNet-V2.
Gambar 4.17 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan MobileNet-V2.
95
Gambar 4. 18 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan MobileNet-V2.
Dalam eksperimen selanjutnya peneliti menggunakan salah satu arsitektur
Deep CNN yaitu ResNet-152 yang mana merupakan model menggunakan konsep
skip connection untuk mengatasi vanishing gradient yang mana jika semakin
dalam jaringan maka nilai gradien menghilang. ResNet-152 artinya ada 152-layer
dan memiliki jumlah parameter 25 juta dan merupakan pemenang dari kompetisi
ImageNet tahun 2015. ResNet merupakan solusi dari neural network yang dalam,
semakin dalam pelatihan maka semakin rumit dan kedalaman sangat penting
untuk pelatihan agar parameter atau neuron dapat mengingat atau menyimpan
nilai pelatihan yang optimal. Berikut ini merupakan Gambar 4.19 kemudian 4.20
dapat dilihat akurasi training dan validation kemudian hasil training loss dan
arsitektur ResNet-152.
96
Gambar 4.20 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan ResNet-152.
Gambar 4. 19 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan ResNet-152.
Kemudian dalam penelitian ini dilanjutkan eksperimen menggunakan
et al., 2016). Inception-v3 terdiri dari 5 lapisan konvolusional dasar (stem) dengan
97
tipe valid padding yang terdiri dari conv2d_0 hingga conv2d_4 dimana setiap
operasi konvolusi diikuti oleh aktivasi ReLu dan BatchNormalization. Berikut ini
merupakan Gambar 4.21 kemudian 4.22 dapat dilihat akurasi training dan
validation kemudian hasil training loss dan validation loss dari masing-masing
Gambar 4.21 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan Inception-V3.
98
Gambar 4.22 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan Inception-V3.
Penelitian selanjutnya menggunakan arsitektur Deep Convolutional
dikalkulasikan dengan semua layer yang ada di lapisan atasnya jadi dalam segi
komputasi DenseNet jauh lebih berat dan dalam. DenseNet Memiliki beberapa
kemudian 4.24 dapat dilihat akurasi training dan validation kemudian hasil
training loss dan validation loss dari masing-masing CK+ dan JAFFE
Gambar 4.24 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss CK+ menggunakan DenseNet-201.
Gambar 4.23 Hasil Akurasi Training dan Validation, Hasil Training Loss dan
Validation Loss JAFFE menggunakan DenseNet-201.
100
4.2 Evaluasi
testing dari setiap model standar Convolutional Neural Network (CNN) dari
ukuran input gambar yang berbeda untuk setiap datasets CK+ dan JAFFE. Setelah
itu membandingkan hasil testing dari setiap model Deep Convolutional Neural
Network dalam mengenali pola CK+ dan JAFFE dari tujuh arsitektur pre-trained
report dan confusion matrix. Klasifikasi ini terdiri dari recell, precision, dan F-1
score. Recall menunjukkan jumlah objek antara actual dan prediction secara
akurat, precision menunjukkan jumlah objek yang dipilih secara benar dan F-1
score menunjukan rata-rata dari recall dan precision (Abdurrohman et al., 2018).
Dalam evaluasi ini disajikan hasil confusion matrix dari hasil eksperimen
model menggunakan standar CNN dari ukuran input resolusi gambar yang
berbeda mulai dari 48×48 piksel hingga 360×360 piksel untuk setiap datasets
CK+ dan JAFFE. Berikut ini gambar 4.25 confusion matrix dari model untuk
input gambar yang berbeda dari CK+. Kemudian dilanjutkan gambar 4.26
confusion matrix dari model untuk input dengan resolusi gambar yang berbeda
Pada gambar 4.25 merupakan hasil confusion matrix dari setiap input
gambar yang berbeda dari resolusi dari 48×48 sampai 360×360 untuk setiap
model yang berbeda. Dapat dilihat prediksi beserta aktual hasil akurasi testing
data. Selanjutnya berikut ini adalah rincianya yang diberikan label 0-6: 0 = Anger,
Gambar 4.26 Hasil Confusion Matrix dari 48×48 piksel hingga 360×360 untuk
JAFFE.
Pada Gambar 4.26 merupakan hasil confusion matrix dari setiap input
gambar yang berbeda dari resolusi dari 48×48 sampai 360×360 untuk setiap
model yang berbeda. Dapat dilihat prediksi beserta aktual hasil akurasi testing
data. Selanjutnya berikut ini adalah rincian yang diberikan label 0-6: 0 = Anger, 1
report yang akan melihat hasil dari masing-masing dari model dengan ukuran dari
resolusi 48×48 hingga 360×360 untuk setiap datasets CK+ dan JAFFE. Berikut
Tabel 4.4 menyajikan hasil classification report untuk melihat hasil dari
CK+ JAFFE
Score Score
Pada Tabel 4.4 merupakan hasil classification report dari testing model di
mana menyajikan hasil dari akurasi model dari setiap input dari resolusi gambar
mulai 48×48 sampai 360×360. Di mana setiap model dalam tabel menunjukkan
report tersebut, model dengan ukuran input dengan resolusi gambar 224×224
cenderung memiliki akurasi terbaik untuk dua datasets CK+ maupun JAFFE. Dan
ketikan nilai input gambar resolusi semakin rendah akurasi turun mencapai rata-
rata 5%. Akurasi terendah dengan ukuran input resolusi gambar terkecil yaitu
48×48. Dengan nilai hasil akurasi tiap model di atas menggunakan inisialisasi
learning rate 0.0001. Pada Gambar 4.27 di visualisasikan nilai akurasi dari setiap
model menggunakan ukuran input yang berbeda dengan datasets CK+ dan
F-1 Score dari setiap model menggunakan ukuran input yang berbeda dengan
Accuracy (%)
102.00%
100.00%
98.00%
96.00%
94.00%
92.00%
90.00%
88.00%
86.00%
84.00%
82.00%
360 × 360 224 × 224 128 × 128 64 × 64 48 × 48
CK+ JAFFE
F1-Score
102%
100%
98%
96%
94%
92%
90%
88%
86%
84%
82%
360 × 360 224 × 224 128 × 128 64 × 64 48 × 48
CK+ JAFFE
gambar dengan ukuran input 224×224 cenderung mencapai akurasi tertinggi dari
ukuran input yang lainnya. Semakin kecil ukuran input gambar maka model akan
106
yang diperoleh oleh model dalam mengenali pola datasets. Dalam hal ini ukuran
dari sebuah arsitektur juga berpengaruh terhadap ukuran input 224×224 dalam
penelitian ini arsitektur disesuaikan dengan ukuran input tersebut. Selain itu
varian yang lebih sedikit dari CK+ dan JAFFE mempunyai keseimbangan jumlah
Dari Gambar 4.28 terdapat makna yang dapat diambil bahwasanya ukuran
gambar dengan ukuran input 224×224 cenderung mencapai akurasi tertinggi dari
ukuran input yang lainnya. Semakin kecil ukuran input gambar maka model akan
yang diperoleh oleh model dalam mengenali pola datasets. Dalam hal ini ukuran
dari sebuah arsitektur juga berpengaruh terhadap ukuran input 224×224 dalam
penelitian ini arsitektur disesuaikan dengan ukuran input tersebut. Selain itu
varian yang lebih sedikit dari CK+ dan JAFFE mempunyai keseimbangan jumlah
mengenali pola dari datasest CK+ dan JAFFE. Yang mana akan disajikan berupa
trained ini akan disajikan dalam bentuk performance matrix berupa recall,
precision, dan F-1 Score. Recall menunjukkan jumlah objek antara actual dan
prediction secara akurat, precision menunjukkan jumlah objek yang dipilih secara
benar dan F-1 score menunjukkan rata-rata dari recall dan precision
wajah, evaluasi ini dapat membantu mengidentifikasi akurasi dari setiap tujuh
jenis ekspresi wajah sehingga dapat mengenali emosi seseorang dengan akurat.
Dalam evaluasi ini disajikan hasil confusion matrix dari hasil eksperimen model
menggunakan tujuh model pre-trained untuk setiap datasets CK+ dan JAFFE.
Berikut ini Gambar 4.29 confusion matrix dari model untuk model pre-trained
yang berbeda dari CK+. Kemudian dilanjutkan Gambar 4.30 confusion matrix dari
EfficientNet-B0 VGG-19
VGG-16 MobileNet-V2
Inception-V3 ResNet-152
109
Pada Gambar 4.29 merupakan hasil confusion matrix dari setiap tujuh
mengenali data CK+. Dapat dilihat prediksi beserta aktual hasil akurasi testing
data. Selanjutnya berikut ini adalah rincian yang diberikan label 0-6: 0 = Anger, 1
yaitu 99.30% .
110
VGG-19
EfficientNet-B0
VGG-16 MobileNet-V2
Inception-V3 ResNet-152
111
DenseNet-201
Pada Gambar 4.30 merupakan hasil confusion matrix dari setiap tujuh
model dari arsitektur pre-trained yang berbeda, dengan setiap model yang
berbeda dengan input 224×224 ketika akan masuk pada arsitektur. Dapat dilihat
prediksi beserta aktual hasil akurasi testing data. Selanjutnya berikut ini adalah
dan VGG-19.
report yang akan melihat hasil dari masing-masing dari model dengan tujuh
model arsitektur pre-trained berbeda untuk setiap datasets CK+ dan JAFFE.
112
Berikut tabel 4.5 menyajikan hasil classification report untuk melihat hasil dari
CK+ JAFFE
Score Score
B0 (Tan &
Le, 2019)
(Mahendran
& Vedaldi,
2016)
(Simonyan &
Zisserman,
2015)
V2 (Sandler
et al., 2018)
(He et al.,
2016)
113
CK+ JAFFE
Score Score
(Szegedy et
al., 2016)
201 (Huang
et al., 2018)
Tabel 4.5 merupakan hasil classification report dari testing model yang
berisi hasi akurasi dari tujuh model pre-trained Deep Convolutional Neural
terbaik yaitu 99.30% untuk datasets CK+, selain itu dengan menggunakan
parameter yang lebih sedikit. Dalam hal ini untuk VGG-19 dan VGG-16
Memiliki akurasi testing 100% dalam mengenali pola JAFFE, selain itu model
VGG-19 dalam proses fitting membutuhkan waktu yang lebih lama kerena VGG
mengenali pola JAFFE akurasi berkurang 15%, itu berarti setiap model pre-
trained belum tentu cocok digunakan untuk mengenali pola datasets yang
berbeda. Selain itu ketika menggunakan VGG-19 dan VGG-16 akurasi testing
114
untuk mengenali pola CK+ berkurang 2%. Dalam hal ini dengan inisialisasi
hyperparameter yang sama dan metode yang sama yaitu teknik tranfer learning
Pada Gambar 4.31 berisi visualisasi nilai akurasi dari setiap model yang
menggunakan tujuh model Deep CNN berbeda dengan datasets CK+ dan JAFFE.
Kemudian Pada Gambar 4.33 berisi visalisasi nilai performance matrix F-1 Score
dari setiap model yang menggunakan tujuh arsitektur pre-trained yang berbeda
Accuracy(%)
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
CK+ in Selected 10% Test Sample JAFFE in Selected 10% Test Sample
F-1 Score
120.00%
100.00%
80.00%
60.00%
40.00%
20.00%
0.00%
CK+ in Selected 10% Test Sample JAFFE in Selected 10% Test Sample
dataset yang tidak seimbang dimana jumlah setiap Class tidak seimbang. Tabel
EfficientNet-B0 pada 132 gambar uji dari kumpulan data CK+. di mana model
memprediksi citra kesedihan salah diklasifikasikan sebagai jijik, dan kejutan salah
Tabel 4.6 Menampilkan klasifikasi F1-Score dari setiap kelas ekspresi dalam set
data CK+.
True Label
Expression AN CO DI AF HA NE SA SU
Anger (AN) 13 0 0 0 0 0 0 0
Contempt 0 5 0 0 0 0 0 0
(CO)
Disgust (DI) 0 0 17 0 0 0 1 0
Fear 0 0 0 8 0 0 0 0
(AF)
Happy (HA) 0 0 0 0 21 0 0 0
Neutral (NE) 0 0 0 0 0 33 0 0
Sadness 0 0 0 0 0 0 10 1
(SA)
Surprise (SU) 0 0 0 0 0 0 0 24
Tabel 4.7 Menampilkan gambar yang salah diklasifikasikan dari set data CK+.
Misclassified Image: True Class →
Predicted Class
Samp
les
From
CK+
Sadness Surprise
Disgust Sadness
oleh salah satu model EfficientNet-B0 dan keandalan model dalam membuat
oleh peneliti. Gambar pertama termasuk dalam label jenis ekspresi, tetapi model
memprediksi sebagai ekspresi jijik. Dalam hal ini, model kesulitan dalam
ekspresi wajah orang yang disajikan pada tabel 5 ini, tetapi secara visual ekspresi
117
kesedihan dan jijik memiliki hampir kesamaan seperti alis berkerut. ke bawah atau
kadang ke atas dan bibir cenderung mengecil, gigi tertutup, dan kulit wajah
tampak berkerut. Gambar kedua termasuk dalam label jenis ekspresi terkejut,
tetapi model prediksi termasuk dalam ekspresi kesedihan. Mengapa hal ini bisa
terjadi karena khusus untuk wajah seseorang pada gambar kedua ini, ketika
kesedihan, namun secara visual ekspresi terkejut dan sedih memiliki sedikit
perbedaan yang hanya terletak pada keadaannya. alis cenderung ke atas melebar
Pada analisis Tabel 4.7 dapat disimpulkan bahwa keadaan ekspresi setiap
orang cenderung berbeda dan dipengaruhi oleh warna kulit, tingkat usia, dan suku
tertentu. Pada tipikal lainnya, ketika dua orang memiliki ekspresi yang sama,
belum tentu kedua orang tersebut memiliki ekspresi yang terlihat sama secara
visual karena setiap orang memiliki karakter yang unik dalam setiap ekspresi
ekspresi wajah yang telah diusulkan dengan metode yang ada dengan penelitian
sebelumnya khususnya pada datasets CK+ dan JAFFE. Dalam hal ini pada
pembagian datasets untuk data training, data validation dan data testing juga
disajikan dalam Tabel 4.6 untuk setiap model start-of-the-art. Khususnya dalam
118
hal ini analisis khususnya untuk menggunakan metode deep learning. Sebagian
besar metode yang ada menggunakan datasets JAFFE berukuran relatif kecil
dengan hanya 213 sampel dengan tujuh kelas ekspresi wajah yang relatif
mempunyai kelas seimbang. Selain itu datasets CK+ mempunyai jumlah sampel
yang lebih banyak dengan 1256 gambar ekspresi wajah dalam tujuh kelas. Tetapi
CK+ relatif memiliki jumlah data yang tidak seimbang pada tiap kelasnya. Teknik
digunakan dalam penelitian ini dan tercantum pada Tabel 4.8 dengan CK+ dan
JAFFE. Setelah itu masing-masing metode dengan teknik yang digunakan dalam
pemilihan ekstraksi fitur dan klasifikasi fitur disajikan dalam tabel untuk
Akurasi
(Penulis., Total Datasets: Training Testing Metode Untuk Esktrasi fitur dan
Tahun) Set dan Testing Set Klasifikasi Fitur
CK+ JAFFE
Hibrid arsitektur deep learning
(Jain et al., 2018) 213: 80%+20% - 94.91%
menggunakan CNN dan RNN
Meningkatkan Citra, Peningkatan
(Bendjillali et al., citra, ekstraks(Jain et al., 2018)i
213: 80%+20% - 98.63%
2019) fitur dan klasifikasi menggunakan
CNN
(Moravčík & Tipe VGG untuk ekstraksi fitur dan
Basterrech, 2021)
981: 80%+10%+10% 95.00% -
klasifikasi dengan Neural Network
981: 10-fold cross Berbasis Convolutional Neural
(Xu et al., 2020) 98.99% -
validation testing Network dan Edge Computing
Teknik yang Transfer leaning pada pre-trained
diusulkan EfficientNet-B0 model
1256: 80%+10%+10% 99.30% -
Menggunakan Menerapkan Pendekatan fine-
EfficientNet-B0 tuning
Teknik yang Transfer leaning pada pre-trained
diusulkan 213:80%+10%+10% - 100.0% VGG-19 model Menerapkan
Menggunaakn Pendekatan fine-tuning
119
Akurasi
(Penulis., Total Datasets: Training Testing Metode Untuk Esktrasi fitur dan
Tahun) Set dan Testing Set Klasifikasi Fitur
CK+ JAFFE
VGG-19
BAB V SIMPULAN DAN SARAN
5.1 Simpulan
berbeda pada kedua datasets ekspresi wajah CK+ dan JAFFE dengan tampilan
profil frontal dan ukuran input gambar 224×224, metode yang diusulkan
utama dalam menentukan emosi dari ekspresi seseorang yang tepat, kemudian f-1
score juga digunakan untuk menentukan performance matrix jenis ekspresi antara
data predict dan actual khusus untuk datasets CK+ yang tidak seimbang.
Dalam hal ukuran resolusi gambar untuk input dengan ukuran 224×224
relatif mempunyai akurasi yang tinggi dengan menggunakan model CNN standar.
Untuk CK+ dengan ukuran input 224×224 model CNN standar akurasi testing
testing 100.0%. Semakin kecil ukuran input gambar maka akurasi testing
cenderung menurun dari 224×224 ke 48×48 piksel. Karena semakin kecil resolusi
gambar model dalam mengenali pola saat pelatihan semakin cenderung bias.
120
121
5.2 Saran
belajar dari gambar ekspresi wajah dengan tampilan dari depan saja, sehingga
model akan bias ketika data testing merupakan gambar profil wajah yang terlihat
akurat ekspresi wajah seseorang dengan tampilan profil atau wajah dari sudut
ucapan atau gerakan tubuh untuk mencakup aplikasi industri yang akan muncul
kedepannya.
DAFTAR PUSTAKA
Abdurrohman, H., Dini, R., & Muharram, A. P. (2018). Evaluasi Performa
metode Deep Learning untuk Klasifikasi Citra Lesi Kulit The
HAM10000. In Seminar Nasional Instrumentasi, Kontrol dan Otomasi
(SNIKO).
Akhand, M. A. H., Roy, S., Siddique, N., Kamal, M. A. S., & Shimamura, T.
(2021). Facial emotion recognition using transfer learning in the deep
CNN. Electronics (Switzerland), 10(9), 1–19.
https://doi.org/10.3390/electronics10091036
Atabansi, C. C., Chen, T., Cao, R., & Xu, X. (2021). Transfer Learning
Technique with VGG-16 for Near-Infrared Facial Expression
Recognition. Journal of Physics: Conference Series, 1873(1).
https://doi.org/10.1088/1742-6596/1873/1/012033
Bendjillali, R. I., Beladgham, M., & Merit, K. (2019). Improved Facial
Expression Recognition Based on DWT Feature for Deep CNN.
https://doi.org/10.3390/electronics8030324
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for
Image Recognition. 2016 IEEE Conference on Computer Vision and
Pattern Recognition Deep. https://doi.org/10.1109/CVPR.2016.90
Huang, G., Liu, Z., Maaten, L. van der, & Weinberger, K. Q. (2018). Densely
Connected Convolutional Networks. July, 1–9.
https://doi.org/10.1109/CVPR.2017.243
Hung, J. C., Lin, K. C., & Lai, N. X. (2019). Recognizing learning emotion
based on convolutional neural networks and transfer learning. Applied
Soft Computing Journal, 84, 105724.
https://doi.org/10.1016/j.asoc.2019.105724
Indolia, S., Goswami, A. K., Mishra, S. P., & Asopa, P. (2018). Conceptual
Understanding of Convolutional Neural Network- A Deep Learning
Approach. Procedia Computer Science, 132, 679–688.
https://doi.org/10.1016/j.procs.2018.05.069
Izard, C. E., Woodburn, E. M., Finlon, K. J., Krauthamer-ewing, E. S.,
Grossman, S. R., Woodburn, E. M., Finlon, K. J., Krauthamer-ewing, E.
S., & Grossman, S. R. (2011). Emotion Review. International Society
for Research on Emotion, 3, No. 1 (, 44–52.
https://doi.org/10.1177/1754073910380972
Jain, N., Kumar, S., Kumar, A., Shamsolmoali, P., & Zareapoor, M. (2018).
Hybrid deep neural networks for face emotion recognition. Pattern
Recognit. Pattern Recognition Letters.
https://doi.org/10.1016/j.patrec.2018.04.010
122
123
126
IDENTITAS DIRI
Nama : Islam Nur Alam
Tempat/Tanggal lahir : Malang /24 Juli 1996
Alamat : Perumahan Puri Indah Blok i2 no 8 Batu Kota
Batu
No Telp/Email : : 081335154133/islam.alam@binus.edu
PENDIDIKAN FORMAL
1. (2020), lulus Universitas Islam Negeri Maulana Malik Ibrahim Malang
2. (2014), lulus MA NEGERI KOTA BATU
3. (2010), lulus MTs NEGERI BATU
4. (2007), lulus SD NEGERI BEJI 02
PENDIDIKAN INFORMAL/PELATIHAN/KURSUS
1. (2021), mengikuti pelatihan AWS Certified Cloud Practioner
2. (2021), mengikuti pelatihan Alibaba Cloud Associate Cloud Computing
3. (2019), mengikuti pelatihan Machine Learning Development dari PT
Lintarsara
PENGALAMAN KERJA
1. (2021 s/d Sekarang), Lecture Spesialis Faculty Development Program
Binus University
2. (2017 s/d 2018), Algorithm and Programming Practicum Assistant 1
KEGIATAN ORGANISASI
1. (2016 s/d 2019), sebagai Ketua Devisi Mutli Media HMJ Teknik
Informatika