Anda di halaman 1dari 10

..

Machine Translated by Google Tersedia online di www.sciencedirect.com


Sains Langsung
Sains Langsung
000–000
Procedia
Tersedia
Computer
online diScience
www.sciencedirect.com
00 (2022)
Ilmu Komputer Procedia 00 (2022) 000–000
www.elsevier.com/locate/procedia
www.elsevier.com/locate/procedia
Sains Langsung
Ilmu Komputer Procedia 218 (2023) 1384–1393

Konferensi Internasional tentang Pembelajaran Mesin dan Rekayasa Data


Konferensi Internasional tentang Pembelajaran Mesin dan Rekayasa Data
Pengenalan Bahasa Isyarat Assam Waktu Nyata menggunakan MediaPipe
Pengenalan Bahasa Isyarat Assam Waktu Nyata menggunakan MediaPipe dan
Pembelajaran Mendalam
dan Pembelajaran Mendalam
Jyotishman Bora, Saine Dehingia, Abhijit Boruah* Anuraag Anuj Chetia, Dikhit Gogoi
Jyotishman Bora, Saine Dehingia, Abhijit Boruah* Anuraag Anuj Chetia, Dikhit Gogoi
Departemen CSE, Institut Teknik dan Teknologi Universitas Dibrugarh, Dibrugarh 786004, India
Departemen CSE, Institut Teknik dan Teknologi Universitas Dibrugarh, Dibrugarh 786004, India

Abstrak
Abstrak
Orang yang kurang memiliki indra pendengaran dan kemampuan berbicara tidak dapat disangkal memiliki masalah komunikasi
dalam hidupnya.
komunikasi dalamOrang dengan
hidupnya. kekurangan
Orang indra pendengaran
dengan masalah pendengaran dandan
kemampuan berbicara tidak
bicara berkomunikasi dapat disangkal
menggunakan memiliki
bahasa isyaratmasalah
dengan
dirinya sendiri bahasa
menggunakan dan orang lain. dengan
isyarat Bahasa diri
isyarat pada
sendiri hakikatnya
dan orang lain. tidak mengenal
Bahasa isyaratmasalah pendengaran
pada dasarnya dan bicaraoleh
tidak diketahui berkomunikasi
sebagian besar
populasi menggunakan
manusia manusia yang menggunakan
bahasa lisan dan bahasa lisan
tulisan danberkomunikasi.
untuk tulisan untuk berkomunikasi.
Oleh karena itu,Oleh karena itu, sebagian
pengembangan perangkat besar populasi
teknologi untuk
interpretasi
mengembangkanbahasa isyarat
alat merupakan
teknologi suatu keharusan.
untuk interpretasi bahasaBanyak
isyarat.penelitian telah dilakukan
Banyak penelitian untuk mengakui
telah dilakukan perlunya bahasa isyarat
untuk mengakui
menggunakan
bahasa isyarat teknologi untuk sebagian
dengan menggunakan besar bahasa
teknologi global. Namun
untuk sebagian besar masih
bahasaada ruang
global. lingkup
Namun pengembangan
masih alat dan
ada ruang untuk teknik
pengembangan
alat dan teknik
merupakan pengembangan
pengembangan bahasa
bahasa isyarat
isyarat untukuntuk dialek
dialek lokal.
lokal. Ada 2222bahasa
Terdapat bahasaIndia
Indiamodern
moderndandanlebih
lebihdari
dari19000 bahasa
19.000 bahasa yang
yang
digunakan secara
Isyarat Assam, regional
yang secarasebagai
regionalbahasa ibu. Karya
merupakan bahasainiibu.
mencoba
Karya mengembangkan pendekatan teknis
ini mencoba mengembangkan untuk mengenali
pendekatan teknis untukBahasa
mengenali Bahasa
pembelajaran Isyarat
mesin, karyaAssam, yang merupakan
ini mencoba membangunsalah satu
sistem dari mengidentifikasi
untuk 22 bahasa modern di India.
salah satu Dengan menggunakan
dari 22 bahasa modernteknik
di India.
Dengan menggunakan
tangan dari teknik
Bahasa Isyarat pembelajaran
Assam. Kombinasi mesin, penelitian
gambar ini mencoba
dua dimensi dan tigamembangun sistem
dimensi bahasa untukisyarat
Assam mengidentifikasi
tangan darigerakan
Bahasa
Isyarat Assam.
Kumpulan Kombinasi
data gambarAssam
Bahasa Isyarat dua dimensi dan tiga
sebanyak dimensi
2094 dari gerakan
titik data Assam telah
telah dihasilkan, digunakan
termasuk untuk menyiapkan
sembilan kumpulan data. Kera
isyarat statis
untuk
denganpelatihan
vokal dan
feed-forward
konsonan (ÿ,Kumpulan
ÿ, ÿ, ÿ, ÿ,data
ÿ, ÿ,Bahasa
ÿ, ÿ) dari
Isyarat
Bahasa Assam
Isyarat
sebanyak
Assam. 2094Kumpulan
titik data
data
telah
tersebut
dihasilkan,
digunakan
termasuk
sembilandigunakan
tersebut isyarat statis dengan
untuk vokaljaringan
pelatihan dan konsonan (ÿ, ÿ, ÿ, ÿ, ÿ, Model
saraf feed-forward. ÿ, ÿ, ÿ, ini
ÿ ) menghasilkan
dari Bahasa Isyarat Assam.
akurasi Kumpulan data
99%. Hasilnya
menunjukkan
menghasilkanbahwa
akurasimetode yang diterapkan
99%. Hasilnya dalam penelitian
mengungkapkan ini adalah
bahwa metode yang jaringan sarafdalam
diterapkan yang karya
efektif.iniModel iniuntuk
efektif
pengenalanhuruf
mengenali hurufdan
dangerak
geraktubuh
tubuhlainnya
lain dalam
dalam Bahasa
BahasaIsyarat
IsyaratAssam.
Assam. Metode ini juga dapat dicoba dan diuji untuk
Metode ini juga dapat dicoba dan diuji untuk mengenali tanda dan gerak
tubuh
© 2023berbagai bahasa lokal
Penulis. Diterbitkan India lainnya.
oleh Elsevier BV untuk pengenalan tanda dan gerak tubuh untuk berbagai bahasa lokal India lainnya. ©
©
Ini 2023
Ini adalahPenulis.
adalah artikel
artikel Diterbitkan
akses
akses terbuka
terbuka oleh ELSEVIER
dilisensi
di bawah bawah BVCC(https://creativecommons.org/licenses/by-nc-nd/4.0)
CClisensi
BY-NC-ND BY-NC-ND (https://creativecommons.org/licenses/by-nc-nd/4.0)
Ini adalah
Tinjauan artikel akses
bawah terbuka
tanggung di bawah
jawab lisensi
komite CC BY-NC-ND
Data Tinjauan sejawat di bawah tanggung jawab komite ilmiahKonferensi
sejawat di ilmiah (https://creativecommons.org/licenses/by-nc-nd/4.0)
Konferensi Internasional tentangPembelajaran
Internasional tentang Pembelajaran Mesin
Mesin dan
dan Rekayasa
Data
dan Tinjauan sejawat di bawah tanggung jawab komite ilmiah Konferensi Internasional tentang Machine Learning
Rekayasa
Data Kata Kunci: Pengenalan Bahasa Isyarat; Bahasa Isyarat Assam; Pengenalan isyarat; Pengenalan Gambar 3D; Pipa
Media; Jaringan syaraf; Kata Kunci: Pengenalan Bahasa Isyarat; Bahasa Isyarat Assam; Pengenalan isyarat; Pengenalan Gambar 3D;

* Penulis yang sesuai.


* Penulis yang sesuai.
Alamat email: abhijit.btcs06@gmail.com
Alamat email: abhijit.btcs06@gmail.com
1877-0509 © 2023 Penulis. Diterbitkan oleh ELSEVIER BV
1877-0509
Ini © 2023akses
adalah artikel Penulis. Diterbitkan
terbuka oleh
di bawah ELSEVIER
lisensi BV
CC BY-NC-ND (https://creativecommons.org/licenses/by-nc-nd/4.0)
Ini adalahsejawat
Tinjauan artikel akses terbuka
di bawah di bawah
tanggung jawablisensi CCilmiah
komite BY-NC-ND (https://creativecommons.org/licenses/by-nc-nd/4.0)
Konferensi Internasional tentang Pembelajaran Mesin dan Rekayasa
Data Tinjauan sejawat di bawah tanggung jawab komite ilmiah Konferensi Internasional tentang Pembelajaran Mesin dan Rekayasa Data

1877-0509 © 2023 Penulis. Diterbitkan oleh Elsevier BV


Ini adalah artikel akses terbuka di bawah lisensi CC BY-NC-ND (https://creativecommons.org/licenses/by-nc-nd/4.0)
Tinjauan sejawat di bawah tanggung jawab komite ilmiah Konferensi Internasional tentang Pembelajaran Mesin dan Rekayasa Data

10.1016/j.procs.2023.01.117
Machine Translated by Google

2 Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393 1385
Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000

1. Perkenalan

Sensus tahun 2011 menyebutkan bahwa dari populasi penyandang disabilitas sebesar 2,68 crores (2,21% dari total
penduduk) di India, terdapat sekitar 1027835 orang, termasuk 545179 laki-laki dan 482656 perempuan, yang menderita
gangguan pendengaran dan bicara. Kelompok orang ini telah mengembangkan bahasa mereka untuk berkomunikasi satu
sama lain, yang kita kenal sebagai bahasa isyarat. Bahasa isyarat menggunakan gerakan dan gerak tubuh visual manusia
untuk mengekspresikan pikiran seseorang. Bahasa isyarat bervariasi dari satu daerah ke daerah lain. Misalnya, Bahasa
Isyarat Amerika ada di Amerika Serikat, sedangkan Bahasa Isyarat India ada di India. Ada juga bagian dalam bahasa isyarat
yang berbeda di mana alfabet bahasa asli diekspresikan dengan isyarat tangan yang mengeja dengan jari. Bahasa Isyarat
Assam adalah bahasa isyarat di mana terdapat isyarat tangan untuk masing-masing huruf Assam.
Selama beberapa tahun terakhir, kita dapat menemukan banyak percobaan untuk mengembangkan sistem pengenalan
bahasa isyarat (SLR). Meskipun banyak penelitian yang telah dilakukan dalam berbagai bahasa isyarat di seluruh dunia,
tampaknya hanya ada sedikit penelitian yang dilakukan dalam dialek regional di India seperti bahasa Assam. Ada dua jenis
arsitektur SLR berdasarkan data masukan: berbasis sarung tangan [1], [2], [3] dan berbasis visi [4], [5]. Arsitektur SLR
berbasis sarung tangan melibatkan penggunaan sarung tangan pintar untuk mengukur posisi, orientasi, kecepatan, dll.
tangan menggunakan mikrokontroler dan sensor. Teknik SLR berbasis penglihatan menggunakan kamera untuk mendeteksi
gerakan tangan. Sistem SLR berbasis visi komputer biasanya didasarkan pada ekstraksi fitur seperti deteksi tepi, segmentasi
warna kulit, deteksi gerakan, deteksi bentuk tangan, dll. Namun sebagian besar solusi ini terlalu memakan daya komputasi
untuk dijalankan secara real-time pada komputasi low-end perangkat seperti ponsel dan karenanya terbatas pada platform
dengan daya komputasi tinggi. Selain itu, mekanisme pelacakan tangan yang berhasil dan gagal hampir terlihat jelas dalam semua pen
Karya ini berkontribusi pada sistem Pengenalan Bahasa Isyarat Assam yang didukung pembelajaran mendalam yang
berfokus pada pengenalan beberapa huruf dasar Alfabet Assam. Pendekatan ini mencakup metodologi yang melibatkan
penerapan solusi pelacakan tangan yang disediakan oleh proyek sumber terbuka Google, MediaPipe [6]. Bersamaan dengan
itu, algoritma pembelajaran mendalam diterapkan pada solusi ini untuk menghasilkan sistem yang cepat, murah, ringan,
dan mudah diterapkan yang dapat digunakan sebagai inti dari sistem pengenalan bahasa isyarat yang lengkap.
Karya ini mengadopsi pendekatan deteksi landmark tangan sebagai inti dari model lengkap. Dengan menggunakan model
pelacakan tangan MediaPipe, 21 penanda tangan di setiap gambar yang berisi isyarat tangan dari Bahasa Isyarat Assam
telah terdeteksi. Bangunan terkenal tersebut kemudian dikumpulkan sebagai titik koordinat, dinormalisasi, dan disimpan
dalam file .csv sebagai titik data. Model jaringan saraf feedforward kemudian mengambil titik data ini sebagai masukan, dan
setelah melatih model tersebut, pengenalan tanda tangan real-time dengan OpenCV telah diimplementasikan menggunakan
model yang dilatih. Gambar 1 memberikan gambaran keseluruhan proyek. Model yang disiapkan untuk 9 huruf Assam sangat
efisien, akurat, portabel, dan ringan. Makalah ini membahas keseluruhan prosedur pengembangan model kami, beserta hasil
dan analisis kinerjanya.

Gambar 1. Diagram alur proyek secara keseluruhan


Machine Translated by Google

1386 Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393
Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000 3

2. Tinjauan Pustaka

Das dkk. [5] telah meneliti sistem pengenalan bahasa isyarat berbasis pembelajaran mendalam dengan pemrosesan gambar statis yang
diimplementasikan pada isyarat Bahasa Isyarat Amerika. Kumpulan data terdiri dari 24 label isyarat statis alfabet dari A hingga Z, tidak
termasuk J. Ada sekitar 100 gambar per kelas dalam kumpulan data yang ditangkap pada sensor RGB. Metodologinya termasuk penggunaan
model jaringan saraf konvolusional Inception V3 untuk melatih model. Setelah melatih dan menguji model, tingkat akurasi rata-rata validasi
melebihi 90%, dengan akurasi validasi paling menonjol adalah 98%. Mereka menyimpulkan bahwa model Inception V3 yang relatif baru dapat
menjadi model yang sesuai untuk deteksi bahasa isyarat statis bila dilengkapi dengan kumpulan data gambar yang dipotong dengan benar.

Sahoo [7] menggunakan pembelajaran mesin untuk mengerjakan pengenalan bahasa isyarat India. Penelitian ini berfokus pada gerakan
tangan statis dalam bahasa isyarat India untuk nilai numerik (0-9). Sensor RGB digital digunakan untuk menangkap gambar tanda untuk
membangun kumpulan data. Kumpulan data berisi total 5000 gambar, dengan 500 gambar untuk setiap digit dari 0 hingga 9. Dua pengklasifikasi
digunakan berdasarkan teknik pembelajaran terbimbing untuk melatih model: Naïve Bayes dan k-Nearest Neighbor. Teknik K-Nearest
Neighbor memiliki kinerja yang sedikit lebih baik dibandingkan pengklasifikasi Naïve Bayes dalam penelitian ini karena rata-rata tingkat
akurasi k-NN dan Naïve Bayes masing-masing sebesar 98,36% dan 97,79%.
Ansari dan Harit [4] meneliti klasifikasi isyarat statis bahasa isyarat India menggunakan gambar dengan data kedalaman 3d.
Gambar diambil menggunakan Microsoft Kinect, yang memungkinkan pengambilan informasi kedalaman 3D bersama dengan gambar 2D.
Dataset berjumlah 5041 gambar gerakan tangan statis dan diberi label dengan 140 kelas. Pengelompokan K-means digunakan untuk melatih
model. Dalam penelitian tersebut, mereka mampu memperoleh tingkat akurasi 90% untuk 13 tanda dan akurasi 100% untuk tiga tanda sehingga
menjadi 16 huruf (A, B, D, E, F, G, H, K, P, R , T, U, W, X, Y, Z) pengenalan dengan rata-rata tingkat akurasi sebesar 90,68%.

Rekha dkk. [8] mengerjakan 23 tanda statis dan tiga tanda dinamis dari kumpulan data Bahasa Isyarat India. Mereka menggunakan
segmentasi warna kulit untuk menemukan lokasi tangan. Orientasi tepi dan tekstur digunakan sebagai fitur untuk melatih SVM multikelas
yang mencapai tingkat keberhasilan sekitar 86,3%. Namun, pendekatan mereka terlalu lambat untuk diterapkan sebagai algoritma pengenalan
isyarat praktis.
Bhuyan dkk. [9] menggunakan dataset 8 isyarat dari Bahasa Isyarat India yang terdiri dari 400 gambar. Mereka menggunakan teknik
segmentasi berdasarkan warna kulit untuk mendeteksi tangan, kemudian menggunakan klasifikasi tetangga terdekat, dan akhirnya mencapai
tingkat pengenalan di atas 90%.
Pugeault & Bowden [10] bekerja pada sistem pengenalan real-time untuk pengenalan huruf dalam Bahasa Isyarat Amerika. Dataset yang
terdiri dari 24 kelas dengan 48.000 gambar kedalaman 3D yang ditangkap menggunakan sensor Kinect digunakan. Filter Gabor dan hutan
acak kelas jamak digunakan dan tingkat klasifikasi yang sangat akurat tercapai.
Keskin dkk. [11] menggunakan pendekatan yang melibatkan pengenalan objek berdasarkan bagian-bagiannya untuk mengenali tanda-
tanda yang menunjukkan angka Bahasa Isyarat Amerika. Kumpulan data mereka memiliki sepuluh kelas dengan total 30.000 gambar kedalaman
3D yang diambil menggunakan sensor Kinect, dan mencapai tingkat akurasi sekitar 99%.
Ren dkk. [8] menggunakan teknik berbasis ambang batas untuk segmentasi tangan dari gambar yang diambil Kinect. Mereka punya
sepuluh kelas dengan total 1000 gambar dalam kumpulan datanya. Tingkat akurasi yang dicapai sekitar 93%.
Halder dan Tayade [12] menggunakan kerangka MediaPipe untuk mendapatkan landmark multi-tangan dan menggunakan Support Vector
Mesin (SVM) untuk deteksi tanda tangan secara real-time. Rata-rata akurasi yang dicapai sekitar 99%.

3. Prosedur Pengumpulan Data

3.1. Lingkungan Simulasi

Perangkat lunak KScan3D digunakan untuk pengambilan gambar 3D dengan sensor Microsoft Kinect. Pustaka OpenCV digunakan untuk
menangkap gambar 2D menggunakan webcam RGB dan visualisasi landmark tangan 3D yang diekstraksi dengan model pelacakan tangan
MediaPipe. Pembelajaran mendalam diimplementasikan pada aplikasi web notebook Jupyter Python.

3.2. Koleksi gambar

Gambar subjek yang berpose dengan gerakan Bahasa Isyarat Assam ditangkap menggunakan sensor Microsoft Kinect dan webcam RGB.
Keuntungan menggunakan sensor Microsoft Kinect adalah mengumpulkan data kedalaman untuk individu
Machine Translated by Google

Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393 1387
4 Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000

piksel gambar, dan menggunakan data tersebut model 3D seseorang dapat dibuat. Selanjutnya, gambar kedalaman 3D yang diambil
dengan sensor Microsoft Kinect digunakan untuk menghasilkan banyak gambar seseorang dari sudut berbeda. Proses ini juga
membuat model lebih kuat dan mudah beradaptasi dengan berbagai sudut isyarat tangan setelah pelatihan. Bersamaan dengan
gambar yang dihasilkan dari sensor Microsoft Kinect, gambar tanda 2D RGB juga ditangkap dengan webcam RGB. Contoh gambar
3D dan 2D yang dikumpulkan selama proses ditunjukkan masing-masing pada Gambar 2(a) dan Gambar 2(b).
Perbandingan jumlah gambar dari sensor Kinect dengan jumlah gambar dari webcam kira-kira 1:1.

A. B.

Gambar 2. (a) Gambar 3D yang diambil dengan Microsoft Kinect; (b) Gambar 2D diambil dengan webcam RGB.

3.3. Deteksi landmark tangan menggunakan MediaPipe

Kerangka kerja MediaPipe digunakan untuk membangun alur pembelajaran mesin untuk data deret waktu seperti video, audio, dll.
Google pertama kali memperkenalkannya untuk melakukan analisis video dan audio real-time di YouTube. Pada tahun 2019, rilis
publik MediaPipe memungkinkan peneliti dan pengembang untuk mengintegrasikan dan menggunakan kerangka kerja ini dalam
proyek mereka. Tidak seperti kebanyakan kerangka kerja pembelajaran mesin yang menuntut daya komputasi tinggi, MediaPipe dapat
berjalan secara efisien, menjaga akurasi dan ketahanannya pada perangkat dengan daya komputasi rendah, seperti android dan perangkat IoT ya
Toolkit MediaPipe seluruhnya terdiri dari kerangka MediaPipe dan solusi MediaPipe. MediaPipe
kerangka kerja dikembangkan menggunakan pemrograman C++, Java, dan Objective C, yang terdiri dari 3 API utama –
• API Kalkulator • API
Konstruksi Grafik dan • API Eksekusi
Grafik Solusi MediaPipe
terdiri dari 16 model TensorFlow dan TensorFlow Lite yang telah dilatih sebelumnya di atas kerangka kerja MediaPipe yang dibuat
untuk kasus penggunaan tertentu. Pekerjaan ini memanfaatkan solusi MediaPipe untuk menyimpulkan penanda tangan dari gambar
isyarat tangan. Model pelacakan tangan ini menghasilkan 21 titik landmark 3D (seperti yang ditunjukkan pada Gambar 3) di tangan
dari satu bingkai. Untuk mencapai hal ini, dua model dependen digunakan secara bersamaan. Pertama, Model Deteksi Telapak Tangan
mendeteksi telapak tangan dalam gambar karena lebih mudah mendeteksi objek kaku seperti telapak tangan dan kepalan tangan
dibandingkan seluruh tangan. Gambar telapak tangan yang dipotong dari model ini diteruskan ke model berikutnya, yaitu Model Hand Landmark.
Model ini secara tepat mendeteksi 21 titik landmark tangan 3D di wilayah tangan yang terdeteksi menggunakan regresi. Model lengkap
dilatih pada sekitar 30.000 gambar dunia nyata yang dianotasi secara manual. Model ini sangat terlatih dan kuat sehingga dapat
mendeteksi dan memetakan titik-titik penanda tangan secara akurat, bahkan pada tangan yang terlihat sebagian dalam banyak kasus.
Machine Translated by Google

1388 Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393
Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000 5

Gambar 3. 21 landmark tangan 3D yang dilokalkan oleh model pelacakan tangan MediaPipe

Model pelacakan tangan dari MediaPipe diteruskan melalui semua gambar isyarat tangan yang dikumpulkan dari Bahasa Isyarat
Assam. Model mengeluarkan koordinat x, y, dan z dari titik-titik penanda tangan dari gambar, di antaranya hanya koordinat x dan
y yang diperlukan dan cukup untuk melatih model akhir. Oleh karena itu, koordinat z dihilangkan, dan titik koordinat yang tersisa
(x dan y) dari penanda tangan untuk tanda tangan yang berbeda disimpan dalam file .csv. Gambar 4 menunjukkan bagaimana
tonggak sejarah disimpan sebagai koordinat. Koordinat ini adalah titik data yang digunakan untuk menghasilkan kumpulan data
akhir dan digunakan untuk melatih model akhir.

Gambar 4. Koordinat titik-titik penanda tangan tidak termasuk koordinat z

3.4. Pembersihan dan normalisasi data

Model landmark tangan MediaPipe memberikan koordinat yang menunjukkan titik landmark tangan berdasarkan penempatan
piksel yang berisi titik landmark pada gambar. Oleh karena itu, koordinat dua gambar dengan tanda tangan yang sama dengan
susunan berbeda dalam bingkai bisa sangat jauh. Hal ini meningkatkan kesulitan dalam melatih model. Untuk mengatasi masalah
ini, titik penanda pergelangan tangan telah dianggap (diberikan oleh indeks 0 pada daftar penanda tangan) yang memiliki koordinat
x dan y sebagai (0,0) dan dengan demikian menyesuaikan koordinat semua titik penanda lainnya yang berhubungan dengan
pergelangan tangan. titik. Kemudian nilai koordinat tersebut dinormalisasi lebih lanjut agar berada pada kisaran [0,1] dengan
membagi seluruh koordinat dengan nilai koordinat absolut terbesar yang diperoleh dengan penyesuaian relatif pada daftar
landmark. Setelah normalisasi koordinat, dikumpulkan dalam file .csv. Gambar 5 menunjukkan prosedur normalisasi koordinat.

Setelah mengumpulkan koordinat dalam file .csv, file tersebut diteruskan melalui fungsi perpustakaan pandas untuk mendeteksi entri nol.
Terkadang dalam gambar buram, model gagal mendeteksi tangan, sehingga menghasilkan entri kosong. Pembersihan entri-entri
kosong ini diperlukan untuk melatih model yang tidak memihak. Oleh karena itu, kami mendeteksi entri nol dan menghapusnya
dari file menggunakan indeksnya.
Machine Translated by Google

Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393 1389
6 Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000

Gambar 5. Contoh normalisasi koordinat penanda tangan

3.5. Data yang Dihasilkan

Awalnya, sembilan isyarat tangan mengeja jari dari Bahasa Isyarat Assam dipilih, mengacu pada 9 alfabet Assam
berbeda yang dikembangkan oleh Vaani® Foundations pada tahun 2021. Karena kami tidak dapat menemukan karya
sebelumnya mengenai Pengenalan Bahasa Isyarat dalam Bahasa Isyarat Assam, kami telah memulai dari yang paling
banyak. tanda-tanda dasar: statis, ditimbulkan oleh satu tangan, dan berbeda satu sama lain. 9 huruf yang dipilih adalah- ÿ, ÿ, ÿ, ÿ, ÿ
Total titik data (titik koordinat) dalam dataset adalah 2094, dengan 200-300 titik data untuk setiap kelas. 75% titik data
dipilih secara acak dan digunakan sebagai kumpulan pelatihan, dan sisa titik data dianggap sebagai kumpulan data
pengujian. Proses pelatihan model pengenalan dimulai dari 200 titik data di setiap kelas, dan selanjutnya, lebih banyak
data dimasukkan ke dalam model dengan bereksperimen dengan titik data berbeda yang ditambahkan ke kelas berbeda
untuk memaksimalkan efisiensi dan akurasi model. Gambar 6 menunjukkan jumlah titik data yang tepat pada kumpulan
data untuk setiap kategori, bersama dengan contoh gambar tanda yang berbeda.

Gambar 6. Ukuran sampel dan isyarat untuk setiap kategori alfabet Assam

4. Melatih Model dengan Jaringan Neural Feedforward Kustom

Setelah membuat kumpulan data, tugas selanjutnya adalah melatih jaringan saraf feedforward dengan data tersebut.
Jaringan saraf mencakup satu lapisan masukan dan satu lapisan keluaran serta empat lapisan tersembunyi, termasuk
dua lapisan padat dan dua lapisan putus sekolah. Lapisan padat melakukan perkalian matriks-vektor di latar belakang, dan lapisan p
Machine Translated by Google

1390 Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393
Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000 7

mengurangi overfitting model dengan memodifikasi tepi keluar neuron lapisan tersembunyi secara acak dan
menyetel ulang ke 0 pada setiap iterasi selama proses pelatihan. Fungsi aktivasi ReLU digunakan di lapisan
tersembunyi, dan fungsi aktivasi Softmax digunakan di lapisan keluaran. Tabel 1 menyajikan konfigurasi model
sekuensial yang diterapkan dalam pekerjaan ini.
Setelah konstruksi, model dikompilasi menggunakan pengoptimal Adam yang efisien secara komputasi dan
sesuai untuk pelatihan model dengan data/parameter besar. Fungsi kerugian disetel ke Sparse Categorical
Crossentropy, yang memberikan kerugian antara label aktual dan prediksi. Metrik akurasi digunakan untuk
evaluasi model, yang menggambarkan seberapa sering prediksi sama dengan label sebenarnya. Fungsi
penghentian awal digunakan dalam pelatihan model, yang menghentikan pelatihan jika tidak ada banyak variasi
dalam perhitungan kerugian dan akurasi dalam 20 langkah pelatihan berturut-turut. Awalnya, nilai epoch
pelatihan ditetapkan ke 1000, namun pelatihan model selesai dalam 341 epoch dan berhenti menggunakan
fungsi penghentian awal. Akurasi pelatihan yang diperoleh sebesar 99,40%, dan kerugian yang dihitung sebesar 0,1090.

Tabel 1: Konfigurasi jaringan saraf feedforward yang digunakan

Model: "berurutan"

Lapisan (tipe) Bentuk Keluaran Jumlah Parameter

putus sekolah (Tidak ada, 42) 0

(Dropout) padat (Padat) (Tidak ada, 20) 860

dropout_1 (Dropout) (Tidak ada, 20) 0

padat_1 (Padat) (Tidak ada, 10) 210

padat_2 (Padat) (Tidak ada, 10) 110

Parameter total: 1.180

Parameter yang dapat dilatih: 1.180

Parameter yang tidak dapat dilatih: 0

5. Hasil dan Analisis

5.1. Analisis Kuantitatif Model

Pustaka classification_report dan darkness_matrix dari toolkit scikit-learn python digunakan untuk analisis
kuantitatif kumpulan data pengujian. Pustaka classification_report menghasilkan laporan evaluasi model kami
dengan matriks - akurasi, presisi, perolehan, dan skor F1. Bersamaan dengan itu, matriks 'dukungan' mewakili
kinerja model dalam pengenalan waktu nyata.
Matriks akurasi mengukur label yang diprediksi dengan benar berdasarkan model dari kumpulan data
lengkap. Persamaan (1) menunjukkan rumusan matematis matriks akurasi.
Matriks presisi mengukur akurasi model dari prediksi positif. Ini menghitung jumlah positif aktual dalam
prediksi positif. Ini adalah ukuran yang sangat baik untuk dipertimbangkan ketika biaya False Positive (FP)
tinggi. Persamaan (2) menggambarkan rumus matematika dari matriks presisi.
Matriks penarikan kembali mengukur berapa banyak prediksi yang diberi label positif oleh model kami dengan benar. Ini
adalah ukuran yang dipertimbangkan ketika biaya tinggi dikaitkan dengan False Negatives (FN). Persamaan (3) merupakan
rumusan matematis dari matriks recall.
Skor F1 memberikan ukuran kumulatif dengan menggabungkan perolehan dan presisi. Persamaan (4) memberikan perhitungan matematis
perumusan matriks ini.

ÿÿÿÿÿ
( )= ÿÿÿÿÿÿÿÿÿÿÿ
(1)

ÿÿ
( )= ÿÿÿÿÿ
(2)
Machine Translated by Google

8 Jyotishman Bora dkk. / Ilmu


Procedia Ilmu00Komputer 218 (2023) 1384–1393 1391
Jyotishman Bora dkk. / Procedia Komputer (2022) 000–000

ÿÿ

ÿÿÿÿ
(3)

ÿÿÿÿÿ

ÿÿÿ
(4)

Pada persamaan (1), (2), (3), dan (4), TP, TN, FP, dan FN mewakili True Positive, True Negative, False Positive,
dan Negatif Palsu, masing-masing.
Tabel 2 menunjukkan laporan klasifikasi model Feed-Forward yang diterapkan secara rinci. Akurasi rata-rata
dicapai oleh model adalah 99%, seperti yang ditunjukkan dalam laporan.

Tabel 2. Laporan klasifikasi model Feedforward

Label kelas Presisi Mengingat Skor F1 Mendukung

1 1,00 1,00 1,00 57

2 1,00 1,00 1,00 55

3 0,96 1,00 0,98 26

4 0,99 1,00 0,99 72

5 1,00 0,99 0,99 70

6 1,00 1,00 1,00 50

7 0,98 0,98 0,98 48

8 1,00 0,99 0,99 68

9 1,00 1,00 1,00 53

ketepatan 0,99 499

rata-rata makro 0,99 0,99 0,99 499

rata-rata tertimbang 0,99 0,99 0,99 499

Pustaka Confusion_matrix digunakan untuk analisis performa model secara real-time. Ini memberikan matriks
konfusi yang mengukur jumlah label yang diprediksi secara akurat. Hal ini juga memungkinkan visualisasi
penyimpangan prediksi jika terjadi prediksi yang salah oleh model. Gambar 7 menunjukkan matriks konfusi model.

Gambar 7. Matriks kebingungan dari jaringan saraf feedforward yang digunakan


Machine Translated by Google

1392 Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393
Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000 9

5.2. Pengakuan waktu nyata

Gambar 8 menyajikan cuplikan dari sistem pengenalan real-time yang diimplementasikan dengan pustaka sumber
terbuka OpenCV menggunakan model tersebut. Model ini secara akurat mampu mengenali gerakan langsung dari bahasa
isyarat Assam baik dalam lingkungan 2D (Gbr. 8 (a)) maupun 3D (Gbr. 8 (b)).

A. B.

Gambar 8. (a) Pengenalan tanda secara real-time pada aliran video webcam; (b) Pengenalan tanda real-time pada gambar 3D dari sensor Kinect.

5.3. Analisis perbandingan

Analisis perbandingan hasil yang dicapai dalam karya ini dengan karya-karya dalam literatur disajikan pada Tabel 3
dan Tabel 4. Tabel 3 menyajikan analisis karya yang dilakukan sehubungan dengan pendekatan berbasis gambar dan visi
2D sedangkan Tabel 4 menyajikan analisis untuk pendekatan berbasis visi 3D.

Tabel 3. Analisis perbandingan karya ini dan pendekatan berbasis gambar 2D lainnya

Bahasa isyarat Penulis Mendekati Ketepatan Tahun

Perkembangan

bahasa isyarat Amerika Das dkk. [5] Model Inception V3 berbasis CNN 90% 2018

Bahasa Isyarat India Rekha dkk. [8] Segmentasi warna kulit dengan SVM 86,3% 2011

Bahasa Isyarat India Sahoo [7] k-NN dan pengklasifikasi Naïve Bayes 98% 2021

Bahasa Isyarat Amerika, Halder dan MediaPipe dengan SVM 99% 2021

India, Italia, dan Turki Tayade [12]


Bahasa Isyarat Assam Pendekatan ini MediaPipe dengan saraf Feedforward 99% 2022

(karya ini) jaringan

Tabel 4. Analisis perbandingan karya ini dan pendekatan berbasis gambar 3D lainnya

Bahasa isyarat Penulis Mendekati Ketepatan Tahun

Perkembangan

Bahasa Isyarat India Ansari dan Harit [4] pengelompokan k-means 90,68% 2016

Bahasa isyarat Amerika Keskin dkk. [11] Pengenalan objek berdasarkan bagian-bagiannya 98% 2013

bahasa isyarat Amerika Pugeault dan Bowden MediaPipe dengan SVM 75% 2011

[10]
Bahasa Isyarat India Kumar dkk. [13] Kernel grafik spatio-temporal 98,75% 2022

Bahasa Isyarat Assam Pendekatan ini MediaPipe dengan Umpan Maju 99% 2022

(karya ini) jaringan syaraf


Machine Translated by Google

Jyotishman Bora dkk. / Procedia Ilmu Komputer 218 (2023) 1384–1393 1393
10 Jyotishman Bora dkk. / Procedia Ilmu Komputer 00 (2022) 000–000

6. Kesimpulan

Karya ini mencoba untuk memberikan solusi visual untuk masalah pengenalan bahasa isyarat dalam bahasa daerah India, di mana
terdapat kumpulan alfabet yang berbeda untuk masing-masing bahasa. Metodologi canggih telah diadaptasi untuk
mengimplementasikan solusi menggunakan alat canggih seperti MidiaPipe. Gerakan real-time dan statis telah dicoba dikenali
dengan melatih kumpulan data gambar 3D dan 2D yang dihasilkan sendiri ke Jaringan Neural Feed Forward. Hasil klasifikasi
menyatakan bahwa dibandingkan dengan model lain dalam literatur, yang memerlukan daya komputasi tinggi dan waktu pelatihan
lebih lama, pendekatan pengenalan bahasa isyarat menggunakan solusi pelacakan tangan MediaPipe ini lebih efektif dan lebih cepat
untuk mengklasifikasikan isyarat tangan dan gerak tubuh yang kompleks termasuk alfabet. Selain itu, penerapan MediaPipe juga
memastikan pelacakan akurat gerakan tangan dengan gerakan berbeda pada ruas jari dan deviasi sendi jari. Selain itu, karena
karakteristiknya yang ringan, model ini menjadi lebih tangguh dan dapat diimplementasikan pada berbagai perangkat komputasi
dengan daya komputasi berbeda tanpa kehilangan kecepatan dan akurasi.
Pekerjaan ini dapat diperluas lebih jauh untuk mencakup pengenalan lebih banyak tanda dari Bahasa Isyarat Assam, termasuk gerak
tubuh dinamis yang terlibat dalam komunikasi kehidupan sehari-hari. Selain itu, berbagai teknik pembelajaran mendalam dapat diuji
setelah menerapkan solusi pelacakan tangan MediaPipe untuk meningkatkan akurasi dan efisiensi model.

Referensi

[1] AZ Shukor, MF Miskon, MH Jamaluddin, F. bin Ali, MF Asyraf, MB bin Bahar dan lain-lain. (2015) "Pendekatan sarung tangan data baru
untuk deteksi bahasa isyarat Malaysia," Procedia Computer Science, vol. 76, hal. 60–67.

[2] M. Mohandes, M. Deriche dan J. Liu. (2014) "Pendekatan berbasis gambar dan berbasis sensor untuk pengenalan bahasa isyarat Arab," transaksi IEEE pada
sistem manusia-mesin, vol. 44, hal. 551–557.

[3] NM Kakoty dan MD Sharma. (2018) “Pengenalan huruf dan angka bahasa isyarat berdasarkan kinematika tangan menggunakan data glove,”
Ilmu Komputer Procedia, vol. 133, hal. 55–62.

[4] ZA Ansari dan G. Harit. (2016) “Klasifikasi tetangga terdekat isyarat bahasa isyarat India menggunakan kamera kinect,” Sadhana, vol. 41,
P. 161–182.

[5] A. Das, S. Gawde, K. Suratwala dan D. Kalbande. (2018) "Pengenalan bahasa isyarat menggunakan pembelajaran mendalam pada gambar isyarat statis yang
diproses secara khusus," dalam Konferensi Internasional tentang Kota Cerdas dan Teknologi Berkembang (ICSCET).

[6] C. Lugaresi, J. Tang, H. Nash, C. McClanahan, E. Uboweja, M. Hays, F. Zhang, C.-L. Chang, MG Yong, J. Lee dan lainnya. (2019)
"Mediapipe: Kerangka kerja untuk membangun saluran persepsi," arXiv pracetak arXiv:1906.08172.

[7] AK Sahoo. (2021) “Pengenalan bahasa isyarat India menggunakan teknik pembelajaran mesin,” dalam Simposium Makromolekuler.

[8] J. Rekha, J. Bhattacharya dan S. Majumder. (2011) "Bentuk, tekstur, dan fitur gerakan tangan lokal untuk bahasa isyarat India
pengakuan," dalam konferensi internasional ke-3 tentang trendz dalam ilmu informasi & komputasi (TISC2011).

[9] MK Bhuyan, MK Kar dan DR Neog. (2011) "Identifikasi pose tangan dari gambar monokuler untuk pengenalan bahasa isyarat," pada Konferensi Internasional
IEEE tentang Aplikasi Pemrosesan Sinyal dan Gambar (ICSIPA) 2011.

[10] N.Pugeault dan R. Bowden. (2011) "Mengejanya: Pengenalan ejaan jari ASL waktu nyata," pada konferensi Internasional IEEE 2011 tentang
lokakarya visi komputer (lokakarya ICCV).

[11] C. Keskin, F. Kÿraç, YE Kara dan L. Akarun. (2013) "Estimasi pose tangan waktu nyata menggunakan sensor kedalaman," dalam Kamera kedalaman
konsumen untuk visi komputer, Springer, hal. 119–137.

[12] A. Halder dan A. Tayad. (2021) "Pengenalan bahasa isyarat vernakular real-time menggunakan mediapipe dan pembelajaran mesin," Beranda jurnal: www.
ijrpr. com ISSN, jilid. 2582, hal. 7421.

[13] DA Kumar, ASCS Sastry, PVV Kishore dan EK Kumar. (2022) “Pengenalan bahasa isyarat 3D menggunakan grafik spatio temporal
kernel," Jurnal Universitas King Saud-Ilmu Komputer dan Informasi.

[14] Z. Ren, J. Yuan dan Z. Zhang. (2011) "Pengenalan isyarat tangan yang kuat berdasarkan jarak penggerak jari-bumi dengan kedalaman komoditas
kamera," dalam Prosiding konferensi internasional ACM ke-19 tentang Multimedia.

Anda mungkin juga menyukai