Anda di halaman 1dari 13

Action Recognition kejahatan dengan menggunakan

Pose Estimation dan metode Convolutional Neural Network (CNN)

Proposal

Disusun Oleh :

MUHAMMAD RAFIF AZZAKI

NIM : 123160133

PROGRAM STUDI TEKNIK INFORMATIKA


JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK INDUSTRI

UNIVERSITAS PEMBANGUNAN NASIONAL “VETERAN”


YOGYAKARTA
2020
BAB I
PENDAHULUAN
1.1 Pendahuluan
Banyaknya kejahatan yang semakin merebak menimbulkan kekhawatiran masyarakat
terhadap tempat-tempat publik dan tempat terjadi yang berpotensi membahayakan keselamatan
orang. Penggunaan CCTV selama ini berfungsi hanya untuk memantau keadaan dengan
bergantung pada atau bagian keamanan sehingga peran CCTV masih berperan secara pasif.
Human Action Recognition mempunyai peran penting didalam Modern intelligent
systems, seperti video surveillance(CCTV), somatosensory game, dan action analysis. Namun
masih merupakan tugas yang menantang karena lingkungan yang canggih/rumit. Action
Recognition yang merupakan salah satu topik pada bidang sistem visi untuk mengenali aktifitas
dan aksi yang dilakukan manusia. action recognition juga mempunyai peran yang signifikan
dalam memahami apa saja yang terjadi di dalam suatu video (Sijie Yan, Yuanjun Xiong, dan
Dahua Lin 2018). Metode ini dapat dapat diterapkan pada CCTV untuk membantu security
dalam menentukan aktifitas yang berpotensi membahayakan, sehingga CCTV tidak hanya pasif
namun juga berperan aktif dengan mendeteksi jika ada sesuatu yang mencurigakan dan dapat
memberitahukannya kepada bagian keamanan.
Terdapat berbagai macam penelitian sebelumnya dalam action recognition yang
menggunakan hardware khusus untuk mengenali motion/gerakan seperti pada penelitian HU, Li-
Qiang et all 2019 yang menggunakan kamera motion sensing Kinect dari Microsoft. Dengan
menggunakan titik yang didapatkan dari persendian yang telah dideteksi dari Kinect lalu sudut
dan perbandingan vektor spasial dikalkulasikan untuk dapat mengenali human action. namun
dengan berjalannya waktu banyak penelitian yang mengembangkan metode pose estimation yang
mendeteksi kerangka tubuh manusia untuk action recognition yang tidak memerlukan hardware
khusus seperti Kinect, namun cukup hanya dengan webcam atau kamera biasa yang terhubung
dengan computer.
Pose estimation adalah suatu metode untuk mendeteksi kerangka anggota tubuh manusia
yang direpresentasikan dengan titik-titik yang biasanya direpresentasi dengan lokasi persendian.
Metode pose estimation secara garis besar dapat dikelompokkan menjadi 2 kelompok, yaitu pose
estimation 2d dan pose estimation 3d. Adapun penelitian sebelumnya pose estimation 2d seperti
Openpose (Cao Zhe et all 2018) menggunakan non-parametric representation atau yang disebut
Part Affinity Fields(PAFs) untuk belajar mengasosiasikan bagian tubuh dengan individual image
dapat melakukan proses pose estimationn dengan baik. Hasil estimasi dari PAFs dan bagian
tubuh yang dimurnikan secara serentak pada lintas training stages sehingga Sistem/metode yang
digunakan ini menggapai akurasi yang tinggi dan dapat diproses secara realtime, tanpa melihat
berapapun orang yang akan di deteksi.
Metode yang biasa digunakan yaitu dengan penerapan metode top-down dimana biasanya
pertama-tama dilakukan deteksi apakah ada orang atau tidak, lalu dijalankannya pose estimation
untuk setiap orang satu-persatu. Permasalahan utama jika menggunakan metode secara top-down
ini adalah jika pada tahap deteksi awal tiba-tiba ada orang lain yang dekat dengan orang yang
sedang dideteksi maka tidak bisa dilakukan recovery. Selain itu runtime dari proses proporsional
dengan jumlah orang dan proses deteksi perorang. berbeda dengan bila metode dilakukan secara
bottom-up yang secara menarik menyajikan robustness pada tahap awal dari pose estimation dan
berpotensi untuk membagi kompleksitas perorang dari jumlah orang yang terdeteksi. Namun
masih,pendekatan bottom-up tidak langsung diproses dari konteks deteksi secara global dari
bagian tubuh atau orang lain yang terdeteksi.
Kelebihan OpenPose dapat terlihat bila membandingkan dengan metode top-down.
Menggunakan evaluasi COCO ditetapkannya object keypoint similarity(OKS) dan penggunaan
mean average precision (AP) dengan batas 10 OKS sebagai pembanding utama metrik. Saat
dibandingkan dengan menggunakan metode state-of-the-art deteksi objek Single Shot MultiBox
Detector (SSD) metode top-down mengalami penurunan performa mencapai 10% dari hasil awal
62.7% AP, sedangkan dengan metode bottom-up OpenPose mencapai 58.4% AP. Selain itu rata-
rata AP dapat bertambah mencapai 2.6% bila diterapkan juga Single Person Convolutional Pose
Model yang merupakan model network yang belajar secara implisit terhadap model spasial yang
melalui arsitektur konvolusi dengan komposisi terurut. Dengan hanya mengupdate estimasi pada
prediksi pada saat kedua metode “setuju” akan menambah tingkat presisi dan recall. Namun
dengan arsitektur baru tanpa perbaikan dari CPM akan menambah tingkat akurasi sebanyak 7%
daripada aslinya dan menambah kecepatan proses hingga 2x lipat.
Dengan pose estimation 3d yang sulit diimplementasikan, pose estimation 2d menjadi
pilihan yang lebih reliable untuk dilakukannya human action recognition. Dengan menggunakan
titik-titik anggota tubuh yang telah didapat dari pose estimation 2d, dapat dilakukan action
recognition dengan memasukkan data tersebut kedalam Convolutional Neural Network untuk
training dan test didapatkannya action recognition yang diharapkan lebih efektif dan lebih baik
daripada metode yang sebelumnya.

1.2 Perumusan Masalah


Penggunaan metode pose estimation kedalam implementasi untuk action Recognition
biasanya diteliti dengan terpisah, sehingga hasil untuk kepentingan action recognition (Luvizon,
Diogo C. et all 2020) Dengan menggunakan pose estimation menghasilkan kerangka manusia
dari titik-titik persendian dengan sumber video. Setelah itu untuk setiap frame dalam interval
tertentu dari sebuah video ,titik-titik persendian akan ditraining dengan menggunakan CNN.
sehingga didapatkan hasil action recognition dengan performa dan akurasi yang lebih baik.

1.3 Batasan Masalah


1. Data latih dan data uji yang digunakan merupakan data sekunder.
2. Data yang digunakan berformat video digunakan sebagai input untuk metode pose
estimation oleh OpenPose
3. Data Latih dan uji dari metode Convolutional Neural Network merupakan hasil output
dari metode Pose Estimation
4. Penelitian ini hanya membahas metode Convolutional Neural Network dan Pose
Estimation
1.4 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk mengoptimalkan action recognition agar aksi manusia
dapat dikenali dengan metode Convolutional Neural Network menggunakan hasil yang telah
diolah dengan metode pose estimation.
1.5 Manfaat Penelitian
Dengan dilakukannya penelitian ini dapat diketahuinya performa algoritma Convolutional
Neural Network dalam action recognition dan dapat menghasilkan aplikasi untuk mendeteksi
aksi yang dilakukan manusia sehingga diharapkan dapat membantu meningkatkan keamanan
melalui CCTV.
1.6 Metodologi Penelitian
Alur Metodologi penelitian yang dilakukan adalah sebagai berikut :
1. Studi Literatur
Studi literatur merupakan pencarian dan penghimpunan data dengan sumber-sumber
Pustaka yang mendukung penelitian serta sebagai salah satu sumber referensi dan
informasi untuk menyelesaikan permasalahan dari suatu penelitian. Studi kepustakaan
yang digunakan didapat dari buku, jurnal, artikel maupun paper yang berkaitan dengan
penelitian ini.
2. Pengumpulan Data
Data Sekunder yang digunakan bersumber dari video yang memiliki visibilitas dan
kualitas yang baik dan dihimpun dari berbagai macam sumber dari dokumen peneliti
maupun internet
3. Analisis Metode
Penganalisisan metode serta kebutuhan apa saja yang dibutuhkan untuk proses
implementasi dan penunjang penelitian
4. Perancangan Sistem
Pada bagian ini perancangan akan dilakukan dengan melakukan pemodelan sistem yang
akan dibuat berdasarkan analisis yang telah dilakukan sebelumnya.
5. Implementasi Perangkat lunak
Pada tahap ini sistem akan diimplementasikan sesuai dengan perancangan dan analisis
yang telah dilakukan
6. Pengujian dan Analisis Hasil
Pada tahap ini akan dilakukan pengujian terhadap implementasi sistem yang telah
dibangun. Kemudian dilakukannya analisis berdasarkan hasil dari pengujian
7. Kesimpulan dan Saran
Pada tahapan ini akan dilakukan penuimpulan dari hasil penelitian yang telah digunakan
dan akan disertakan saran agar penelitian dapat dikembangkan agar penelitian di masa
depan akan mendapat hasil yang lebih baik.
1.7 Keaslian Penelitian
Penelitian ini berdasarkan penelitian terdahulu yang mempunyai karakteristik yang relatif
sama dalam tema yang diteliti. Namun terdapat beberapa perbedaan dari sisi objek penelitian,
sumber data, jumlah dan parameter penelitian, serta metode penelitian yang digunakan.
Penelitian yang akan dilakukan yaitu penerapan metode Convolution Neural Network dengan
metode Pose Estimation yang sudah ada untuk mengetahui aksi manusia yang terdeteksi oleh
sistem.
1.8 Tinjauan Literatur
a. Human Action Recognition
Human Action Recognition adalah pengenalan terhadap aksi yang dilakukan oleh
manusia yang juga merupakan salah satu topik dalam bidang sistem visi untuk mengenali
aktifitas dan aksi yang dilakukan manusia.
b. Klasifikasi data
klasifikasi data adalah metode untuk memproses data pengelompokan data dimana data
yang digunakan mempunyai kelas label. algoritma untuk menyelesaikan klasifikasi termasuk
supervised learning atau pembelajaran yang diawasi
c. Deep Learning
Deep Learning adalah salah satu cabang Machine Learning yang berdasarkan dengan
artificial neural network. terinspirasi dari kortex manusia dengan menerapkan jaringan syaraf
buatan yang memiliki hidden layer pada prosesnya. Deep learning sangat efektif dalam
mengenali pola-pola sehingga dapat menghasilkan hasil yang baik dalam bidang komputer
visi(Santoso & Gunawan, 2018). Berikut ini merupakan ciri-ciri model Deep Learning:
1. Pembelajaran dikaitkan dengan pengetahuan dan pengalaman yang telah
dimiliki
2. Mempelajari pengetahuan-pengetahuan yang telah menjadi landasan terhadap
pengetahuan yang sedang dipelajari, serta pola umum pemecahan masalah.
3. Melakukan evaluasi terhadap fakta-fakta yang tersedia dan dikaitkan dengan
kesimpulan terhadap materi yang sedang dipelajari
4. Melakukan pemeriksaan terhadap logika dan uraian tentang suatu materi
belajar secara rinci dan kritis.
5. Menumbuhkan kesadaran dari dalam tentang tumbuhnya pemahaman selama
mengikuti pembelajaran.
8. Menumbuhkan keaktifan dalam mempelejari materi belajar (Suryana, 2016).
d. Convolutional Neural Network
Convolutional Neural Network(CNN) yang merupakan pengembangan dari Multi Layer
Perceptron(MLP) yang masih termasuk kedalam algoritma Deep Learning dirancang untuk
mengolah data dalam bentuk grid sehingga baik bila diterapkan kedalam citra dua dimensi
seperti gambar maupun suara. CNN sendiri mengklasifikasikan data yang terlabel dengan
menggunakan metode supervised learning. yaitu dimana terdapat data training dan variabel
target yang kemudian data dikelompokkan menurut kelompok yang sudah ada. CNN
menggunakan tiga pokok arsitektur yaitu local receptive fields, shared weight (berupa filter) dan
spatial subsampling (berupa pooling). Convolution sendiri sendiri merupakan matris yang
berfungsi untuk melakukan filter (Kusumaningrum, 2018).
e. Pose Estimation
Metode pose estimation secara garis besar dapat dikelompokkan menjadi 2 kelompok,
yaitu pose estimation 2d dan pose estimation 3d. pada pose estimation 2d, titik-titik persendian
yang langsung dilakukan proses untuk dideteksikan secara proyeksi ortografi sehingga anggota
tubuh yang terlihat kamera langsung ditentukan ditentukan titiknya menurut sudut pandang
kamera. Sedangkan pose estimation 3d berusaha untuk mengestimasikan pose kedalam ruang 3d,
beberapa metode ini terkadang menggunakan pose estimation 2d lalu hasilnya diestimasikan
sehingga mendapatkan proyeksi secara perspektif sehingga pose estimation 3d merupakan
metode yang jauh lebih sulit daripada pose estimation 2d. kedua kelompok pose estimation
itupun memiliki dataset masing-masing, dimana pose estimation 2d biasanya menggunakan
dataset foto atau video yang memiliki keypoint(titik-titik pada persendian/joint) sedangkan pose
estimation 3d menggunakan 2 dataset untuk gambar yang tertangkap oleh kamera biasa dan
dataset yang berisi joint pada ruang 3d. Dataset untuk pose estimation 3d lebih sulit didapat
karena biasanya diproduksi didalam lingkungan terkontrol dengan beberapa kamera setup dan
motion capture suit atau 3D model dan gambar yang dirender/dihasilkan dari 3D model tersebut
selain itu juga terdapat beberapa penelitian yang menggunakan kombinasi dari dataset pose
estimation 2d.
f. OpenPose
OpenPose adalah metode pose estimation 2d yang dikembangkan oleh para peneliti Universitas
Carnegie Mellon yang dianggap sebagai state-of-the-art secara real time. OpenPose dirilis secara
opensource di github. Pipeline yang digunakan oleh OpenPose adalah dengan input gambar RGB
dimasukkan kedalam “two-branch multi-stage” CNN. Dimana setiap tahapannya akan
menghasilkan 2 output yang berupa confidence maps pada titik anggota badan dan Part Affinity
Fields berupa vektor yang menunjukkan koneksi antar titik beserta arahnya. Lalu pada network,
proses akan bertumpuk pada setiap stage.
Proses OpenPose pertama-tama gambar RGB akan dimasukkan sebagai input dari “two-branch
multi-stage” CNN. Two-branch artinya CNN menghasilkan 2 output yang berbeda. Multi-stage
berarti network yang digunakan saling tertumpuk pada setiap stage

Gambar 1. Pipeline metode Openpose


Two-branch : cabang yang paling atas digunakan untuk memprediksi confidence maps dari
berbagai bagian tubuh seperti mata kanan, mata kiri, lengan kanan, bahu kanan, dan lainnya.
Sedangkan cabang bawah digunakan untuk memprediksi Affinity Fields yang menunjukkan
berapa kadar asosiasi antar bagian tubuh
Multi-Stage : pada stage pertama, network menghasilkan initial set of detection dari confidence
map S dan kumpulan bagian affinity fields. Lalu setiap stage selanjutnya prediksi didapat dari
kedua cabang dari stage sebelumnya dengan gambar asli feature F yang di gabungkan untuk
menghasilkan prediksi yang lebih baik
Pada multi-stage setup terdapat kelebihan yang dapat terlihat dari progres pada setiap stagenya.
Pada awalnya prediksi yang didapatkan bisa mendapatkan bagian siku namun belum bisa
membedakan mana siku kanan atau kiri, namun seiring berlanjutnya stage prediksi yang dapat
membedakan siku kanan atau kiri.
Setelah semuanya diproses confidence maps dan affinity fields akan diproses lagi dengan greedy
inference untuk menghasilkan output 2D key points untuk semua orang yang terlihat digambar
Confidence Maps
Pada cabang atas dari neural network menghasilkan 1 set confidence maps berikut rumusnya
Gambar 2. Ekspresi Matematis Confidence map
J adalah jumlah seluruh titik yang digunakan untuk deteksi bagian tubuh. nilai J sendiri
tergantung dari dataset OpenPose yang ditraining. untuk dataset yang menggunakan COCO J =
19 karena ada 18 anggota tubuh + 1 background. Dibawah ini gambar yang menunjukkan body
parts untuk dataset COCO

Gambar 3. Keypoints ID dari dataset COCO


Part Affinity Field Maps
Pada cabang bawah dari neural network menghasilkan set Part Affinity Field Maps, berikut
rumusnya

Gambar 4. Ekspresi Matematis Part Affinity Field Maps


C merupakan jumlah total keseluruhan anggota tubuh, tergantung dengan dataset yang di training
ke OpenPose. Untuk dataset COCO C = 19, figure di bawah menunjukkan berbagai pasangan
titik yang terhubung sebagai anggota tubuh
Gambar 5. Array dari hubungan antar titik bagian tubuh
Detail Neural Network
Gambar pertamanya dianalisa oleh pre-trained convolution neural network seperti 10 layer
pertama dari VGG-19 untuk menghasilkan set feature maps. Untuk feature extractor tidak hanya
dapat menggunakan VGG-19 saja namun dapat digunakan juga feature extractor yang lain
seperti Mobilenet atau Resnet sebelum proses selanjutnya.
Loss Function : agar network dapat belajar mengenerate set confidence maps dan part affinity
fields yang terbaik, diterapkanlah 2 loss function pada setiap stage, yaitu pada akhir setiap
cabang proses confidence maps dan part affinity fields. jurnal ini menggunakan metode standar
L2 Loss antara prediksi yang diestimasi dan data asli dari maps. Selain itu dilakukannya juga
penyertaan weight kepada loss function untuk menyelesaikan masalah praktis dimana beberapa
dataset tidak melabel semua orang.
Loss Function pada stage adalah :
1. Notasi p merepresentasikan 1 lokasi pixel pada gambar dengan lebar w dan tinggi h
2. Notasi * yang ada pada set confidence map (S) dan Part Affinity Fields (L) menandakan
bahwa variable tersebut adalah data asli yang digunakan sebagai pembanding
3. Output dari S(p) adalah vector 1 dimensi yang berisi confidence score untuk bagian tubuh
yang sedang dideteksi pada lokasi gambar p
4. Output dari L(p) adalah vector 2 dimensi yang berisi vector dengan atah untuk bagian
tubuh yang dideteksi pada lokasi gambar p
5. Jumlah keseluruhan titik bagian tubuh yang dideteksi ada 19, dan koneksi antar titik
bagian tubuh juga ada 19
6. W(p) merepresentasikan weight, sebagai contoh jika W(p) akan sama dengan 0 jika
anotasi pada lokasi pada gambar (p) tidak ditemukan. Selain itu digunakan juga mask
untuk menghindari dari menyalahkan prediksi true positive saat training
Dengan menggabungkan kedua loss function didapatkan tujuan keseluruhannya, Overall Loss
Function

1.9 Penelitian Sebelumnya


No Penulis Judul Metode Keterangan
1 Maosen Li , Actional- Graph Neural Dengan memodifikasi
Siheng Chen , Structural Networks (yang ketergantungan internal antar titik
Xu Chen , Ya Graph merupakan persendian tubuh setiap frame dan
Zhang , Convolutional generalisasi membangun skeleton graph
Yanfeng Wang Networks for CNNs menjadi dimana diterapkan juga graph
, dan Qi Tian Skeleton-based graph dari convolutional networks untuk
Action struktur yang mengekstrak fitur yang berkorelasi
Recognition berubah-ubah) dengan cara mempelajari fitur
spasial dan fitur temporal
2 Dennis Ludl, Simple yet CNN, menggunakan metode deteksi
Thomas efficient real- pyramidal objek untuk menemukan orang
Gulde, time pose- implementation dan bounding box, lalu dengan
Cristóbal based action (dari metode menggunakan algoritma pose
Curio recognition Lukas Kanade recognition, informasi kerangka
Feature tubuh manusia didapatkan dari
Tracker) beberapa frame sehingga action
detection didapatkan

1.10 Jadwal Penelitian


N Kegiatan Juli Agustus Septembe Oktober Novembe Desember
o r r
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1 Pengumpulan Data
Pengumpula
n dan
verifikasi
2 Perancangan Sistem
Planning
Analysis
Design
Implementa
tion
3 Pengujian Sistem
Evaluasi
dan analisis
4 Pembuatan Laporan
Penyusunan
Laporan

1.11 Sistematika Penulisan


Dalam penyusunan laporan penelitian ini sistematika penulisan yang digunakan adalah
sebagai berikut :
Bab I Pendahuluan
Pada bagian ini berisi tentang pemaparan latar belakang masalah, perumusan
masalah, Batasan masalah, tujuan penelitian, manfaat penelitian, metodologi
penelitian dan sistematika penulisan.
Bab II Tinjauan Pustaka
Tinjauan Pustaka berisi tentang dasar teori yang digunakan untuk analisis dan
perancangan sistem dan implementasi pada penelitian ini. Selain itu tinjauan
Pustaka juga memuat sumber dan bahan referensi serta pondasi untuk
memperkuat dan menopang argumentasi penelitian ini. Teori-teori yang sesuai
dengan penelitian ini adalah :
Action Recognition, Klasifikasi data, Deep Learning, Convolutional Neural
Network, Pose Estimation
Bab III Analisis dan Perancangan Sistem
Pada Bagian ini akan membahas mengenai Analisa dan perancangan sistem
hingga implementasi sistem dalam action recognition manusia yang berkaitan
dengan keamanan seperti membawa senjata.
Bab IV Hasil, Pengujian dan Pembahasan
Pada bab ini hasil penelitian akan diurai berdasarkan hasil implementasi dari
perancangan dan sistem yang telah dibuat pada bab sebelumnya. Selain itu bab ini
juga berisi pengujian terhadap hasil penelitian beserta pembahasannya
Bab V Kesimpulan dan Saran
Pada bab ini berisi kesimpulan yang didapat dari penelitian yang dilakukan serta
saran yang diajukan penulis untuk pengembangan penelitian selanjutnya

1.12 Daftar Pustaka

Cao, Z., Šimon, T., Wei, S., & Sheikh, Y. (2017). Realtime Multi-person 2D Pose Estimation
Using Part Affinity Fields. 2017 IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), 1302-1310.

L-Q. Hu, Z-Q. Cai, L-N. Xing, X. Tan, Human Action Recognition via Learning Joint Points
Information toward Big AI system, J. Vis. Commun. Image R. (2019), doi:
https://doi.org/10.1016/j.jvcir. 2019.102688
Santoso, Aditya & Gunawan Ariyanto .(2018). IMPLEMENTASI DEEP LEARNING
BERBASIS KERAS UNTUK PENGENALAN WAJAH. Emitor: Jurnal Teknik Elektro
ISSN 1411-8890. Doi : https://doi.org/10.23917/emitor.v18i01.6235

Luvizon, D.C., Picard, D., & Tabia, H. (2018). 2D/3D Pose Estimation and Action Recognition
Using Multitask Deep Learning. 2018 IEEE/CVF Conference on Computer Vision and
Pattern Recognition, 5137-5146.
Kusumaningrum, T. F. (2018). Implementasi Convolution Neural Network (Cnn) Untuk
Klasifikasi Jamur Konsumsi Di Indonesia Menggunakan Keras (Studi, 300).

Suryana, H. (2016). Model Pembelajaran Efektif Deep Learning.

Yan, S., Xiong, Y., & Lin, D. (2018). Spatial Temporal Graph Convolutional Networks for
Skeleton-Based Action Recognition. AAAI.

Anda mungkin juga menyukai