Anda di halaman 1dari 10

1

DETEKSI EMOSI PADA MIMIK WAJAH


DENGAN ALGORITMA CONVOLUTIONAL
NEURAL NETWORK (CNN)
¹,
Teknik Informatika, Universitas Dipa Makassar
Jl. Perintis Kemerdekaan No.KM.9, Tamalanrea Indah,
Kec. Tamalanrea, Kota Makassar, Sulawesi Selatan
90245 e-mail:

Abstrak
Deteksi emosi dari mimik wajah menjadi topik penelitian yang menarik dalam bidang
pengenalan pola dan kecerdasan buatan. Dalam penelitian ini, kami mengusulkan penggunaan
algoritma Convolutional Neural Network (CNN) untuk mendeteksi emosi pada mimik wajah.
CNN adalah jenis jaringan saraf tiruan yang telah terbukti berhasil dalam pengenalan pola
visual, termasuk pengenalan wajah. Metode kami melibatkan pengumpulan dataset berisi
gambar-gambar wajah dengan berbagai ekspresi emosi. Dataset ini digunakan untuk melatih
model CNN agar dapat mengenali pola-pola yang berkaitan dengan emosi tertentu pada wajah
manusia. Proses pelatihan CNN melibatkan penggunaan filter konvolusi untuk mengekstrak
fitur-fitur penting dari gambar wajah, diikuti oleh lapisan-lapisan terhubung penuh yang
bertujuan untuk klasifikasi emosi. Hasil evaluasi kami menunjukkan bahwa model CNN yang
diusulkan memiliki tingkat keakuratan yang tinggi dalam mendeteksi emosi pada mimik wajah.
Performa model ini diuji menggunakan dataset pengujian terpisah, dan hasilnya menunjukkan
tingkat akurasi yang memuaskan dalam mengklasifikasikan emosi pada wajah yang tidak
pernah dilihat sebelumnya.Penelitian ini memberikan kontribusi dalam pengembangan sistem
pendeteksian emosi pada mimik wajah menggunakan teknik Convolutional Neural Network.
Diharapkan bahwa temuan kami dapat diterapkan dalam berbagai aplikasi, seperti pengenalan
emosi pada pengguna perangkat lunak, analisis respons pengguna pada konten multimedia, dan
pengenalan emosi pada robot sosial.

Kata kunci : Deteksi emosi, Algoritma Convolutional Neural Network (CNN), Pengenalan
wajah, Filter konvolusi, Klasifikasi emosi, Sistem pendeteksian emosi

Abstract
The use of augmented reality (AR) technology in the world of property is currently
being used more and more as a promotional medium. This study aims to determine the use of
AR as a promotional medium for Android-based houses. The method used in this research is
descriptive qualitative method. The results of this study indicate that AR can be used as an
effective promotional medium because it allows users to see a visualization of the house they
are going to buy before making a purchase. In addition, AR can also make the promotion
process more interactive and fun for users. Android-based makes it easy for users to access and
use this application because many people have android devices. Emotion detection from facial
expressions is an intriguing research topic in the fields of pattern recognition and artificial
intelligence. In this study, we propose the use of Convolutional Neural Network (CNN)
algorithm for emotion detection from facial expressions. CNN is a type of artificial neural
network that has shown success in visual pattern recognition, including face recognition. Our
method involves collecting a dataset consisting of facial images with various emotional
expressions. This dataset is used to train the CNN model to recognize patterns associated with
2 

specific emotions on human faces. The training process of the CNN involves the use of
convolutional filters to extract important features from facial images, followed by fully
connected layers aimed at emotion classification. Our evaluation results demonstrate that the
proposed CNN model achieves a high level of accuracy in detecting emotions from facial
expressions. The performance of the model is tested using a separate testing dataset, and the
results show satisfactory accuracy in classifying emotions on previously unseen faces. This
research contributes to the development of emotion detection systems from facial expressions
using Convolutional Neural Network techniques. It is expected that our findings can be applied
in various applications, such as emotion recognition in software users, analysis of user
responses to multimedia content, and emotion recognition in social robots.

Keywords : Emotion detection, Convolutional Neural Network (CNN) algorithm, Face


recognition, Convolutional filters, Emotion classification, Emotion detection system.

1. PENDAHULUAN

D eteksi emosi dari mimik wajah merupakan area penelitian yang menarik dalam bidang
pengenalan pola dan kecerdasan buatan. Emosi adalah aspek penting dalam komunikasi
manusia dan dapat diungkapkan melalui ekspresi wajah. Kemampuan untuk secara akurat
mendeteksi emosi dari mimik wajah memiliki potensi aplikasi yang luas, termasuk dalam
pengenalan emosi pada pengguna perangkat lunak, analisis respons pengguna terhadap konten
multimedia, dan pengenalan emosi pada robot sosial (Denta Sukma & Mukhaiyar, 2022).

Dalam beberapa tahun terakhir, perkembangan dalam algoritma pembelajaran mesin


dan jaringan saraf tiruan telah menghasilkan kemajuan signifikan dalam deteksi emosi dari
mimik wajah. Algoritma Convolutional Neural Network (CNN) telah terbukti efektif dalam
mengatasi tantangan pengenalan pola visual, termasuk pengenalan wajah. CNN memungkinkan
pemodelan hierarkis dari fitur-fitur wajah yang relevan untuk mengenali pola-pola yang
berkaitan dengan ekspresi emosi tertentu (Setiawan et al., 2022).

Penelitian ini bertujuan untuk mengusulkan penggunaan algoritma CNN untuk deteksi
emosi dari mimik wajah. Kami akan menggunakan dataset gambar wajah dengan berbagai
ekspresi emosi sebagai data pelatihan untuk melatih model CNN. Proses pelatihan akan
melibatkan ekstraksi fitur menggunakan filter konvolusi, diikuti oleh lapisan-lapisan terhubung
penuh yang bertujuan untuk mengklasifikasikan emosi.

Selanjutnya, kami akan melakukan evaluasi terhadap model CNN yang diusulkan
menggunakan dataset pengujian terpisah. Evaluasi akan melibatkan pengukuran keakuratan
dalam mengklasifikasikan emosi pada mimik wajah yang tidak pernah dilihat sebelumnya. Hasil
evaluasi akan memberikan pemahaman tentang kinerja dan efektivitas model CNN dalam
deteksi emosi pada mimik wajah.

Diharapkan penelitian ini dapat memberikan kontribusi penting dalam pengembangan


sistem pendeteksian emosi dari mimik wajah. Dengan kemajuan ini, kita dapat meningkatkan
kemampuan komunikasi antara manusia dan mesin serta memahami dengan lebih baik respons
emosional pengguna terhadap berbagai situasi dan konteks.
 3

2. KAJIAN PUSTAKA

2.1 Ekspresi Wajah


Menurut (Salsabila et al., 2021)Ekspresi wajah adalah hasil dari satu atau lebih gerakan
atau posisi otot pada wajah yang biasanya tidak disadari. Ekspresi wajah termasuk salah satu
aspek terpenting dalam komunikasi manusia. Wajah bertanggung jawab untuk berkomunikasi
tidak hanya pikiran atau ide, tetapi juga emosi. Apa yang membuat komunikasi emosi menarik
adalah bahwa ekspresi emosi tertanam secara biologis, dan diungkapkan dengan cara yang sama
oleh semua orang. Emosi pada wajah mengomunikasikan keadaan emosional dan niat perilaku
seseorang. Ekspresi emosi wajah adalah isyarat sosial yang menonjol dalam interaksi seharihari.
Ekspresi emosi wajah digunakan dalam berbagai bidang penelitian, misalnya kognisi sosial,
psikologi, dan ilmu saraf. Banyak pekerjaan telah dilakukan dalam memproses ekspresi wajah
ini terutama untuk mengenali kondisi emosional.

2.2 Facial Expression Recognition


Facial expression recognition merupakan salah satu penerapan pada deep learning di
bidang pengolahan citra yang berguna untuk mendeteksi emosi manusia menggunakan
algoritma neural network. Dalam penerapan facial expression recognition secara umum untuk
mendeteksi emosi langkah yang digunakan adalah dengan cara melakukan dari nilai piksel tiap
emosi dan secara urutan untuk mendapatkan informasi dalam frame dataset. (Ristiawanto et al.,
n.d.)

2.3 Convulational Neural Network(CNN)


Convolutional Neural Network (CNN) adalah pengembangan dari Multilayer
Perceptron (MLP) yang termasuk dalam neural network bertipe feed forward (bukan berulang).
Convolutional Neural Network adalah neural network yang didesain untuk mengolah data dua
dimensi. CNN termasuk dalam jenis Deep Neural Network karena kedalaman jaringan yang
tinggi dan banyak diaplikasikan pada data citra. CNN digunakan untuk menganalisis gambar
visual, mendeteksi dan mengenali objeck pada image, yang merupakan vektor berdimensi tinggi
yang akan melibatkan banyak parameter untuk mencirikan jaringan. Secara garis besar, CNN
tidak terlalu jauh berbeda dengan neural network biasanya. CNN terdiri dari neuron yang
memiliki weight, bias dan activation function.(Adi Nugroho et al., 2020)

2.4 Dataset

Data yang dipakai adalah benchmark data berupa citra dengan format PNG dan JPEG
dan digunakan untuk training data dan testing yang tersedia dalam Challenges in
Representation Learning : Facial Expression Recognition Challenge. Data tersebut terdiri dari
image wajah dengan ukuran 48x48 piksel dan terdiri dari 35.887 citra yang memiliki 28709
train set dan 3589 citra untuk test set dengan beberapa emosi seperti marah, jijik, takut, senang,
sedih, terkejut dan netral.(Azhari, 2020)

3. METODE DAN ANALISIS

3.1 Gambaran Umum Sistem


sistem pengenalan ekspresi pada wajah menggunakan model arsitektur yang berbasis
Convolutional Neural Network (CNN). Dataset pada awalnya akan dibagi menjadi tiga menurut
kegunaannya, yaitu ada data pelatihan, data validasi, dan data pengujian. Seluruh jenis data akan
dilakukan pemrosesan awal terlebih dahulu. Kemudian untuk data pelatihan dan data validasi
4 

akan digunakan untuk proses pelatihan model. Setelah model dilatih kemudian model di
evaluasi dengan data uji, data validasi, dan data pelatihan kembali agar dapat dilihat seluruh
akurasi dan loss dari data latih, data validasi, dan data uji.

Tabel 3.1

Pada Tabel 3.1, peneliti menggunakan dataset FER2013 yang memiliki total data
35.887 data. Data ini dibagi menjadi tiga bagian menurut penggunaannya dengan perbandingan
80% data pelatihan dengan jumlah 28.709 data, 10% data validasi dengan jumlah 3.589 data,
dan 10% data pengujian dengan jumlah 3.589 data. FER2013 memiliki tujuh kelas emosi dari
range 0 - 6 yang masing-masing mewakili ekspresi wajah. (0=marah, 1=jijik, 2=takut,
3=senang, 4=sedih, 5=kaget, 6= netral).

3.2 Metode Convulational Neural Network(CNN)


Dalam penelitian ini, kami mengadopsi metode Convolutional Neural Network (CNN)
bersama dengan teknik face detection untuk mendeteksi wajah pada gambar. Metode CNN telah
terbukti efektif dalam pengenalan objek visual kompleks, dan face detection merupakan teknik
yang khusus dirancang untuk mengidentifikasi dan membatasi area wajah dalam gambar.

Gambar 3.1

Pertama, kami merancang arsitektur CNN yang terdiri dari beberapa lapisan. Lapisan
pertama adalah lapisan konvolusi yang bertanggung jawab untuk mengekstraksi fitur-fitur lokal
dari gambar menggunakan filter/kernel konvolusi. Setelah itu, lapisan pooling digunakan untuk
mengurangi dimensi spasial data dan mengambil informasi yang paling penting dari fitur-fitur
yang dihasilkan. Kami menggunakan metode pooling max untuk mengambil nilai maksimum
dari setiap wilayah dalam gambar yang tercakup oleh filter.
 5

Selanjutnya, kami menerapkan lapisan konvolusi dan pooling secara berulang untuk
memperdalam pemahaman model terhadap fitur-fitur wajah. Kami juga memasukkan lapisan
aktivasi ReLU setelah setiap lapisan konvolusi untuk memperkenalkan non-linearitas dalam
model dan meningkatkan kemampuan representasi yang lebih kompleks.

Setelah lapisan-lapisan konvolusi dan pooling, kami menambahkan lapisan fully


connected untuk menghubungkan fitur-fitur yang telah diekstraksi dengan label kelas yang
sesuai. Kemudian, kami menggunakan softmax sebagai fungsi aktivasi pada lapisan output
untuk menghasilkan probabilitas kelas wajah.

Selain itu, untuk meningkatkan performa deteksi wajah, kami menggabungkan metode
CNN dengan teknik face detection. Teknik face detection ini digunakan untuk mengidentifikasi
area-area yang berpotensi mengandung wajah dalam gambar secara lebih akurat. Kami
menggunakan algoritma face detection seperti Viola-Jones atau MTCNN (Multi-task Cascaded
Convolutional Networks) yang telah teruji dan populer dalam mendeteksi wajah.

Dengan menggabungkan metode CNN dan teknik face detection, kami berharap dapat
mencapai hasil yang lebih baik dalam deteksi wajah pada gambar. Metode CNN memberikan
kemampuan representasi fitur yang kuat, sedangkan teknik face detection membantu
mempersempit area pencarian dan meningkatkan keakuratan deteksi. Kombinasi kedua metode
ini diharapkan dapat meningkatkan performa deteksi wajah secara keseluruhan dalam penelitian
ini.

3.4 Analisis Perangkat Keras


 Processor: Intel® Pentium® Silver N5030 3.10 GHz
 Memory : 8GB RAM
 SSD : 512 GB
 Graphics : AMD RYZEN 3 Series 5000

3.5 Analisis Perangkat Lunak


 Sistem Operasi : Windows 10
 Software : numpy, pandas, tensorflow, keras, jupyter notebook, sys, Visual
Studio Code
 Bahasa Pemrograman : Python

3.7 Model Definition

Model yang digunakan dalam penelitian ini adalah Sequential model dengan
arsitektur CNN. Model ini terdiri dari beberapa lapisan yang dilakukan secara
berurutan.

 Lapisan pertama adalah Conv2D dengan nama "image_array" yang


memiliki output shape (None, 48, 48, 64) dan 1664 parameter. Conv2D
adalah lapisan konvolusi yang digunakan untuk mengekstraksi fitur-
fitur lokal dari gambar.

 Lapisan selanjutnya adalah Conv2D dengan nama "conv2d_7" yang


memiliki output shape (None, 48, 48, 64) dan 102464 parameter.
6 

Lapisan ini juga merupakan lapisan konvolusi yang menghasilkan fitur-


fitur lebih lanjut dari gambar.

 Lapisan BatchNormalization dengan nama "batch_normalization_6"


digunakan untuk normalisasi batch pada output lapisan sebelumnya.

 Lapisan Activation dengan fungsi aktivasi ReLU (Rectified Linear


Unit) dengan nama "activation_5" diterapkan setelah
BatchNormalization untuk memperkenalkan non-linearitas pada model.

 Lapisan MaxPooling2D dengan nama "max_pooling2d_3" digunakan


untuk mengurangi dimensi spasial data dengan mengambil nilai
maksimum dari setiap wilayah yang tercakup oleh filter.

 Lapisan Dropout dengan nama "dropout_5" digunakan untuk


mengurangi overfitting dengan secara acak menonaktifkan sebagian
node selama pelatihan.

Proses di atas dilakukan berulang untuk beberapa lapisan konvolusi,


BatchNormalization, Activation, MaxPooling2D, dan Dropout dengan parameter yang
berbeda-beda. Setiap lapisan konvolusi memiliki filter/kernel yang berbeda dan
bertujuan untuk mendapatkan fitur-fitur yang semakin kompleks dari gambar.

Setelah lapisan-lapisan konvolusi, pooling, dan dropout, dilanjutkan dengan


lapisan GlobalAveragePooling2D yang menghasilkan output dengan shape (None, 256).
Lapisan ini mengambil rata-rata spasial dari setiap fitur pada lapisan sebelumnya.

 Lapisan Flatten kemudian digunakan untuk meratakan output menjadi


vektor satu dimensi dengan shape (None, 256).

 Lapisan Dense dengan 256 neuron dan nama "dense_3" digunakan


untuk menghubungkan fitur-fitur yang telah diekstraksi dengan label
kelas yang sesuai.

 Lapisan BatchNormalization, Activation, dan Dropout diterapkan


setelah Dense layer untuk meningkatkan kemampuan representasi
model.

 Kemudian, lapisan Dense dengan 512 neuron dan nama "dense_4"


digunakan sebagai lapisan fully connected berikutnya. Sama seperti
sebelumnya, lapisan BatchNormalization, Activation, dan Dropout
diterapkan setelah Dense layer.

 Lapisan Dense terakhir dengan 7 neuron dan nama "dense_5"


digunakan sebagai lapisan output yang menghasilkan probabilitas kelas
untuk klasifikasi wajah.
 7

 Total parameter dalam model ini adalah 3,869,703, dengan 3,867,079


parameter yang dapat dilatih dan 2,624 parameter yang tidak dapat
dilatih.

Gambar 3.2

Arsitektur model ini dirancang untuk mendeteksi wajah pada gambar dengan
memanfaatkan fitur-fitur yang diekstraksi oleh lapisan-lapisan konvolusi dan pooling.
Melalui pelatihan menggunakan data yang sesuai, diharapkan model dapat
menghasilkan prediksi yang akurat terhadap kelas wajah pada gambar yang diberikan.

3.8 Hasil Interface


Hasil dari perancangan dan implementasi pada penelitian ini berupa tampilan
langsung pada saat digunakan yaitu seperti Gambar 3.4 . tampilan tersebut merupakan
tampilan monitoring emosi wajah dan probabilitas emosi.

Gambar 3.4

dalam kondis yang baik hasil nya akan akurat hingga 70% tapi dalam beberapa
kasus jika kondisi pencahayan yang terlalu terang atau redup akurasi akan berkurang
8 

Gamabar 3.5

Hasil yang di harapkan sangat lumayan dimana beberapa kondisi yang di


berikan memberikan hasil yang cukup memuaskan meski dalam beberapa kasus benda
yang tidak termasuk objek wajah masuk dalam deteksi nya

Tabel 3.2

Masing-masing model menggunakan maxpooling untuk melakukan down


sampling pada citra, menggunakan aktivasi ReLu, serta menggunakan neurons 4096
sebanyak 2 kali. Dengan bantuan 4096 neuron membantu menguraikan dan
menghubungkan menjadi keluaran yang lebih sesuai, dengan menggunakan aktivasi
softmax untuk melakukan multiclassification Dilihat pada Tabel 3.2 susunan arsitektur
model Visual Group Geometry (VGG) yang menghasilkan total prediksi benar paling
banyak adalah arsitektur Visual Group Geometry (VGG) dengan 16 lapisan. Susunan
lapisan yang terdapat pada arsitektur VGG16 diantaranya 8 lapisan konvolusi, 5 lapisan
pooling, dan 3 lapisan fully connected layer.
 9

Pada lapisan fully connected layer terdapat bantuan 4096 neurons dan dilakukan
sebanyak 2 kali. Penggunaan neurons untuk membantu menguraikan dan enghubungkan
menjadi keluaran yang lebih sesuai. Penggunaan 4096 neurons didasarkan pada
arsitektur asli yang dikembangkan oleh peneliti Visual Group Geometry . Berikut ini
merupakan gambar kurva hasil selama proses pembelajaran data pada arsitektur visual
group geometry (VGG) dengan 16 lapisan.
Gambar 3.6

Pada Gambar 3.6 meskipun hasil kurva validasi (berwana kuning) dan data latih
(berwarna biru) sedikit melebar, namun tidak menjadi masalah yang besar, karena
rentang nilainya tidak jauh. Jadi kesalahan yang dihasilkan juga kecil, serta kurva
validasi mengikuti trend dengan data latih.

Setelah melakukan pembuatan model serta proses validasi, maka selanjutnya


ialah pengukuran proses pengujian. Pada penelitian ini pengujian tersebut dapat
diketahui setiap citra yang benar dan salah pada kelasnya masing-masing. Data
pengujian yang digunakan sebanyak 3589 dataset, terdapat 491 data marah, 55 data
jijik, 528 data takut, 879 data senang, 594 data sedih, 416 data kaget, dan 626 data
biasa. Hasil pada pengujian menggunakan confusion matrix yang dilakukan tampak
pada gambar berikut(Lioga Seandrio et al., 2021).

Gambar 3.7
10 

4. KESIMPULAN DAN SARAN

Berdasarkan penelitian yang telah dilakukan, banyaknya lapisan pada lapisan konvolusi
tidak menjadi jaminan baik dan buruknya hasil akurasi yang diperoleh. Arsitektur Convolutional
Neural Network menggunakan model Visual Group Geometri (VGG) dengan 16 lapisan,
terbukti dapat menangani data emosi wajah yang diklasifikasi.

Hal itu dapat dibuktikan dengan pengujian confusion matrix yang menghasilkan nilai
rata-rata akurasi sebesar 70,47%, presisi rata-rata sebesar 70,86%, dan recall rata-rata sebesar
69,57%. Pengujian dilakukan dengan menggunakan data uji sebanyak 3589 dataset, yang terdiri
dari 491 data marah, 55 data jijik, 528 data takut, 879 data senang, 594 data sedih, 416 data
kaget, dan 626 data biasa. Hasil klasifikasi yang kurang tepat pada penelitian ini dipengaruhi
oleh faktor tertentu seperti buram pada kamera dan kemiripan antar emosi. Beberapa hal yang
dapat diberikan untuk pengembangan aplikasi ini yaitu aplikasi ini dapat dikembangkan untuk
mengklasifikasi profil wajah disertai emosi, dan menyesuaikan penggunaan pre-trained model
convolutional neural network agar model yang digunakan dapat meningkatkan kestabilan dalam
pembelajaran oleh mesin.

DAFTAR PUSTAKA

Adi Nugroho, P., Fenriana, I., & Arijanto, R. (2020). IMPLEMENTASI DEEP LEARNING
MENGGUNAKAN CONVOLUTIONAL NEURAL NETWORK ( CNN ) PADA
EKSPRESI
MANUSIA. JURNAL ALGOR, 2(1). https://jurnal.buddhidharma.ac.id/index.php/algor/index
Azhari, I. (2020). IMPLEMENTASI ALGORITMA CONVOLUTIONAL NEURAL NETWORK DALAM
DETEKSI EMOSI MANUSIA BERDASARKAN EKSPRESI WAJAH (Vol. 1, Issue 1).
http://eprosiding.ars.ac.id/index.php/pti
Denta Sukma, F., & Mukhaiyar, R. (2022). Alat Pendeteksi Ekspresi Wajah pada Pengendara Berbasis
Image Processing. JTEIN: Jurnal Teknik Elektro Indonesia, 3(2).
https://doi.org/10.24036/jtein.v3i2.261
Lioga Seandrio, A., Hendrianto Pratomo, A., & Florestiyanto, M. Y. (2021). Implementation of
Convolutional Neural Network (CNN) in Facial Expression Recognition Implementasi
Convolutional Neural Network (CNN) Pada Pengenalan Ekspresi Wajah. Jurnal Informatika Dan
Teknologi Informasi, 18(2), 211–221. https://doi.org/10.31515/telematika.v18i2.4823
Ristiawanto, S. P., Irawan, B., & Setianingsih, C. (n.d.). PENGENALAN EKSPRESI WAJAH BERBASIS
CONVOLUTIONAL NEURAL NETWORK MENGGUNAKAN ARSITEKTUR RESIDUAL
NETWORK-50 FACIAL EXPRESSION RECOGNITION BASED ON CONVOLUTIONAL
NEURAL NETWORK USING RESIDUAL NETWORK 50 ARCHITECTURE.
Salsabila, D. R., Aisuwarya, R., Novani, N. P., Arief, L., & Afriyeni, N. (2021). JITCE (Journal of
Information Technology and Computer Engineering) Sistem Pendeteksi Gejala Awal Tantrum
pada Anak Autisme Melalui Ekspresi Wajah dengan Convolutional Neural Network. JITCE, 93–
106. https://doi.org/10.25077/jitce.5.02.93-106.2021
Setiawan, D., Widodo, S., Ridwan, T., & Ambari, R. (2022). Perancangan Deteksi Emosi Manusia
berdasarkan Ekspresi Wajah Menggunakan Algoritma VGG16. In Syntax: Jurnal Informatika (Vol.
11, Issue 01).

Anda mungkin juga menyukai