3, November 2018
p-ISSN: 2302-2949, e-ISSN: 2407 - 7267
Abstrak— Pengolahan suara atau pengenalan kata berkembang pesat sehingga dapat digunakan untuk
berbagai aplikasi seperti menggerakan suatu sistem atau kontrol gerak dan media pembelajaran berbasis
multimedia. Implementasi pengenalan suara dan deteksi citra pada penelitian ini menggunakan transducer
mikrofon dan teknologi kinect. Penelitian ini bertujuan untuk menghasilkan sistem yang dapat
mengidentifikasi dan mengenali suatu objek dengan perintah kata, seperti lingkaran, segitiga, segiempat dan
segibanyak. Dalam pengolahan suara dilakukan ekstraksi ciri suara dengan Mel-Frequency Cepstrum
Coeffecient (MFCC). Pemodelan kata dilakukan dengan menggunakan pemodelan statistik yaitu Hidden
Markov Model (HMM). HMM mampu memberikan mekanisme yang efisien untuk memodelkan secara
statistik keragaman dalam ucapan atau kata. Pengambilan data sampel dengan transducer mikrofon secara
offline dan online. Pada penelitian ini pencocokan pola kata melalui proses pelatihan dan pengujian kata.
Keluaran sistem ini berupa kata yang dikenali berdasarkan probabilitas tertinggi dan menampilkan bentuk
benda berdasarkan kata yang dikenali. Prosesnya setelah kata dikenali, sistem akan mentracking citra benda
berdasarkan bentuk benda kemudian menampilkan bentuk benda yaitu lingkaran, segitiga, segiempat dan
segibanyak. Hasil pengujian dengan tranducer mirofon, untuk sumber terlatih 85%, sumber tidak terlatih
81,5%, dan pengujian dengan Kinect sumber tidak terlatih 84% sehingga sistem pengenalan kata dapat
diimplementasikan dengan teknologi Kinect.
Abstract— Voice processing or speech recognition is growing rapidly hence it can be used for various
applications such as moving a system or motion control and multimedia-based learning media.
Implementation of speech recognition and image detection in this study using microphone transducer and
kinect technology. This study aims to produce a system that can identify and recognize an object with word
commands, such as circles, triangles, rectangles and many. In sound processing, sound feature extraction is
carried out with Mel-Frequency Cepstrum Coeffecient (MFCC). Word modeling was done using statistical
modeling, namely the Hidden Markov Model (HMM). HMM is able to provide an efficient mechanism for
statistically modeling diversity in words or words. Data were collected with offline and online microphone
transducers. This study matches the pattern of words through training and testing process. The output of this
system is a recognizable word based on the highest probability and displaying the object shape based on the
recognized word, namely circle, triangle and quadrilateral. Test results with mirofon tranducers, for 85%
trained sources, 81.5% untrained sources, and 84% untrained Kinect source testing hence that word
recognition systems can be implemented with Kinect technology.
mengenal kata-kata yang diucapkan manusia [1]. mengalir melewati batang tenggorokan akan
Bidang pengolahan suara salah satunya masuk ke larynk. Disana terdapat pita-pita suara
dimanfaatkan sebagai media pembelajaran sehingga ketika udara melewatinya akan
dalam mengucapkan kata. Penderita tunarungu bergetar sehingga akan menghasilkan pulsa-
merupakan pengguna yang membutuhkan media pulsa udara. Pulsa-pulsa udara ini akan masuk
pembelajaran pengucapan kata[2,3]. Media ke vocal tract. Pada bagian ini terjadi resonansi
pembelajaran yang memanfaatkan pengolahan pulsa-pulsa udara yang kemudian membentuk
citra yaitu berbasis multimedia. Media pola-pola suara yang menghasilkan sinyal suara.
pembelajaran ini memudahkan guru dalam Teknologi pengenalan ucapan bertujuan
menyampaikan informasi ketika sulit menciptakan suatu cara yang efisien agar suatu
disampaikan melalui perkataan. mesin (komputer) mampu menerima informasi
Penelitian ini kombinasi pengolahan suara lewat perkataan serta beraksi dengan cepat dan
dan pengolahan citra. Penelitian ini bertujuan tepat sesuai dengan informasi tersebut. Penelitian
untuk menghasilkan sistem yang dapat tentang pengenalan ucapan adalah bagian dari
mengidentifikasi dan mengenali suatu objek pengembangan teknologi komputer dengan
dengan perintah kata, seperti lingkaran, segitiga, kecerdasan buatan (artificial intelligent) yang
segiempat dan segibanyak. Pencocokan pola dapat “mendengar”, ”mengerti”, dan “beraksi”
kata dengan Hidden Markov Model dan deteksi sesuai dengan informasi perkataan yang
benda berdasarkan bentuk dan ukuran benda. diberikan [1].
Output dari sistem ini dimanfaatkan sebagai 2.2 Sistem Pengenalan Kata
media pembelajaran berbasis multimedia dan Pengenalan kata atau ucapan merupakan
sebagai referensi modul pengolahan suara untuk upaya agar manusia dan mesin dapat
teknologi Kinect. berkomunikasi dengan media suara. Secara
umum suatu sistem pengenalan kata terdiri atas
Tinjauan Pustaka dua proses utama. Proses pertama adalah
2.1 Proses Pembentukan Sinyal Suara pada ekstraksi parameter dan proses kedua adalah
Manusia pencocokan pola. Proses ini dapat dilihat pada
gambar 2 [1,5]:
Proses berbicara dapat terjadi jika manusia
mampu mengeluarkan sinyal akustik yang kita
sebut dengan suara. Suara manusia dihasilkan
dengan adanya interaksi antara organ-organ
pembentuk sinyal. Alat-alat pembentuk sinyal
suara pada manusia dapat dilihat pada Gambar
1[1].
https://doi.org/10.25077/ jnte.v7n3.600.2018
jnte.ft.unand.ac.id 192
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
https://doi.org/10.25077/ jnte.v7n3.600.2018
193 jnte.ft.unand.ac.id
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
console Xbox dan computer dengan sistem noise suppression sendiri akan meningkatkan
operasi Windows. Kinect dapat tingkat kejernihan suara[8].
menginterpretasikan gesture secara spesifik,
sehingga pengguna dapat melakukan kontrol
tanpa menyentuh game controller [3]. Saat ini,
Kinect sudah dilengkapi dengan speech
recognition atau pendeteksian suara. Namun,
bahasa yang dapat dideteksi masih meliputi
bahasa Inggris, Perancis, Spanyol, Italia, dan
Jepang. Sensor Kinect memiliki tiga bagian [3],
seperti ditunjukkan gambar 5, yaitu: kamera
RGB, sensor kedalaman dan mikrofon.
Gambar 5. Konfigurasi Teknologi Kinect[8]
Untuk menjalankan fungsi sebagai sensor
suara, Kinect memiliki multi-array microphones
2.5 Geometri Bentuk Benda dan Warna
yang terdiri dari empat mikrofon untuk
2.5.1 Geometri Bentuk Benda
menyimpan suara dari pengguna. Mikrofon
inilah yang nantinya akan menangkap suara Lingkungan memberikan berbagai materi
untuk kemudian diproses lebih lanjut. Kinect yang dapat kita pelajari. Pada lingkungan sekitar
memiliki Analog to Digital Converter (ADC)[8]. dapat dijumpai berbagai macam bentuk yang
Dengan adanya ADC, maka tahap pengolahan mempunyai nama, ciri, ukuran, fungsi, dan
sinyal suara yang masuk akan berkurang. Karena sebagainya. Definisi bentuk dalam kamus besar
pada umumnya proses pengenalan suara Bahasa Indonesia adalah rupa atau wujud yang
dilakukan dengan mikrofon biasa dan ditampilkan. Bentuk adalah wujud, bangun atau
menghasilkan sinyal analog. rupa yang mempunyai pola dasar lingkaran,
kotak, dan segitiga [9].
Kinect SDK merupakan sebuah perangkat
lunak yang digunakan untuk membantu Pada pembelajaran anak di Taman Kanak-
pengembang perangkat lunak dalam kanak (TK), materi tentang bentuk sangat perlu
mengembangkan aplikasi yang dikembangkan diajarkan sejak dini. Materi tentang bentuk yang
menggunakan sensor Kinect. Kinect SDK diajarkan pada anak usia TK adalah bentuk-
memiliki beberapa kemampuan mendengar baik bentuk geometri [9]. Geometri adalah ilmu yang
secara keseluruhan maupun fitur [3], sebagai menjabarkan tentang bentuk dua dimensi
berikut: (persegi, segitiga, lingkaran, segi empat,
a. Raw sensor stream heksagon, trapesium) dan tiga dimensi (kubus,
balok, tabung). Pemahaman bentuk geometri
Akses low level dari sensor sensor pada Kinect
yang terdiri dari kamera RGB, sensor adalah kemampuan untuk mengingat, mengenal,
kedalaman, dan mikrofon. mengidentifikasi, hingga mengaplikasikan
b. Skeletal tracking berbagai wujud seperti bentuk dua dimensi dan
tiga dimensi melalui informasi yang konkret.
Akses untuk mendeteksi gambar kerangka dari Adapun pengertian pemahaman bentuk geometri
satu atau dua pemain yang ada pada jangkauan
pada penelitian ini diartikan sebagai kemampuan
Kinect. Dengan adanya skeletal tracking ini
menunjuk dan mencari 4 benda yang berbentuk
Kinect telah dapat mendeteksi sendi-sendi pada
geometri (segiempat, segitiga, lingkaran,
kerangka manusia.
segibanyak) yang mempunyai ciri-ciri tertentu.
c. Advance audio capabilities
Tampilan bentuk benda berdasarkan kata atau
Memiliki integrasi dengan Windows speech suara yang dikenali [9].
recognition API. Di mana Kinect telah dapat
mengenali beberapa bahasa, seperti Inggris, Salah satu jenis bentuk geometri yaitu
Jepang, Korea, Italia, bangun datar. Bangun datar adalah bangun yang
rata dan mempunyai dua dimensi yaitu panjang
Spanyol, dan Jerman. Selain itu Kinect memiliki
dan lebar tetapi tidak mempunyai tinggi dan
kemampuan Acoustic echo cancellation, dan noise
tebal [9]. Bangun datar ditinjau dari segi sisinya
suppression. Acoustic echo cancellation (AEC)
dapat digolongkan menjadi dua, yakni bangun
dapat menghilangkan echo yang muncul ketika
datar bersisi lengkung (lingkaran dan elips) dan
pengguna mengucapkan suara. Sedangkan
lurus (segitiga, segiempat, segilima,segienam).
https://doi.org/10.25077/ jnte.v7n3.600.2018
jnte.ft.unand.ac.id 194
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
e b2
1
a2
M 4 xA
C 2
(2)
Gambar 7. Ilustrasi
Penghitungan eccentricity
Gambar 8. Ilustrasi Penghitungan metric
Parameter lainnya yang
dapat digunakan Metode Penelitian
untuk membedakan bentuk Sistem dan simulasi ini bertujuan untuk
suatu objek yaitu ‘metric’. mengimplementasikan pengenalan bentuk benda
Metric merupakan nilai berdasarkan kata dikenali didalam Personal
perbandingan Computer menggunakan transducer mikrofon
antara luas dan keliling objek. dan teknologi Kinect. Pada gambar 9 Blok
Metric memiliki rentang nilai diagram implementasi pengenalan bentuk benda
antara 0 hingga 1. Objek yang dan gambar 10 blok diagram sistem pengenalan
berbentuk kata untuk identifikasi bentuk benda.
memanjang/mendekat Berdasarkan gambar 10 proses implementasi
bentuk garis lurus, nilai pengenalan bentuk benda berdasarakan suara
metricnya mendekat angka dengan Mikrofon dan Kinect dijelaskan sebagai
0, sedangkan objek yang
berikut. Pengenalan kata dimulai dengan
berbentuk bulat/lingkaran,
mengucapkan kata “lingkaran” , “segitiga”,
nilai metricnya mendekat
“segiempat” dan “segibanyak” menggunakan
angka 1. Penghitungan
transducer mikrofon dan Kinect. Sinyal suara
metric diilustrasikan pada
gambar 8. Persamaan (1) yang dirubah menjadi sinyal akustik melalui
perhitungan metric: tranducer mikrofon dan Kinect merupakan sinyal
analog. Kemudian dirubah menjadi sinyal digital
https://doi.org/10.25077/ jnte.v7n3.600.2018
195 jnte.ft.unand.ac.id
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
melewati sound card komputer dan disimpan akustik yang berisikan vector parameter.
dikomputer. Perangkat lunak pencocokan pola Pelatihan kata dengan Hidden Markov Model.
kata (pelatihan dan pengujian) menggunakan Proses pelatihan ini akan membentuk model
HMM dan pengolahan citra bentuk benda. kata. Model kata ini disimpan pada database.
Proses pengenalan kata atau pencocokan pola Pengujian kata menggunakan HMM tipe
kata dengan HMM dijelaskan sebagai berikut. Isolated Word dapat dilihat pada gambar 11.
Pertama melakukan ekstraksi parameter atau ciri
dengan MFCC. Outputnya merupakan model
Gambar 9. Blok diagram implementasi pengenalan bentuk benda berdasarakan suara dengan
mikrofon dan kinect
Gambar 10. Sistem pengenalan kata dengan metode hidden markov model
https://doi.org/10.25077/ jnte.v7n3.600.2018
jnte.ft.unand.ac.id 196
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
Gambar 11. Blok diagram pengenalan kata dengan hmm tipe isolated word [1,6]
https://doi.org/10.25077/ jnte.v7n3.600.2018
197 jnte.ft.unand.ac.id
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
Sedangkan cara offline, suara direkam terlebih Tabel 1. Hasil pengujian pengenalan bentuk
dahulu. benda sumber terlath
Kata yang Jumlah Jumlah Jumlah Persen
diucapkan ucapan ucapan ucapan tase
4.1. Pengujian dengan yang yang benar
Transducer Mikrofon benar salah
Pada pengujian ini dilakukan secara offline Lingkaran 10 10 0 100%
dan online. Pengujian ini dilakukan terhadap Segitiga 10 8 2 80%
sumber terlatih dan sumber tidak dilatih. SegiEmpat 10 9 1 90%
SegiBanyak 10 7 3 70%
Rata-rata 85%
4.1.1 Pengujian dengan Transducer
Mikrofon Secara Offline
Berdasarkan hasil pada tabel 1, dari 40
Hasil simulasi ditunjukkan pada gambar 12 a, ucapan yang diujikan, sistem mampu mengenali
12b, dan 12c. Gambar 12a adalah awal simulasi 34 ucapan dengan benar atau tingkat
dimana diupload bentuk-bentuk benda yang akan keakuratannya 85%.
dipilih. Gambar 12b adalah proses input suara
yang menyebutkan bentuk benda yang ingin Tabel 2 . Hasil pengujian pengenalan bentuk
dipilih. Gambar 12c adalah hasil dari simulasi benda sumber tidak terlatih
dimana sistem sudah berhasil memilih benda yang
sesuai dengan input suara yang diberikan Kata yang Jumlah Jumlah Jumlah Persen
Simulasi dilakukan untuk pengujian sumber diucapkan ucapan ucapan ucapan tase
yang yang benar
suara terlatih dan tidak terlatih Pengujian benar salah
pertama terhadap sumber telatih dengan 10 kali Lingkaran 50 48 2 96%
pengucapan dapat dilihat pada tabel 1. Pengujian Segi tiga 50 38 12 76%
kedua terhadap 50 sumber tidak terlatih dengan Segi empat 50 42 8 84%
satu kali pengucapan dapat dilihat pada tabel 2. Segi banyak 50 35 5 70%
Rata-rata 81,5%
https://doi.org/10.25077/ jnte.v7n3.600.2018
jnte.ft.unand.ac.id 198
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
Gambar 12c. Simulasi pengenalan bentuk benda berdasarkan sinyal suara dengan mikrofon untuk
kata “segiempat”
Pada pengujian kedua dengan sumber tidak “lingkaran”, “segitiga”, ”segiempat” dan
terlatih, sistem pengenalan ucapan yang “segibanyak”.
digunakan adalah single observation. Tabel 2 pengujian sumber tidak terlatih
Pengucapan kata bersifat isolated word dimana dengan 50 orang sumber yang tidak dilatih dan
deret observasi yang digunakan diambil dari satu masing-masing sumber mengucapkan masing-
orang sumber dengan satu kali pengucapan dan masing kata satu kali. Hasil yang diperoleh dari
dibandingkan dengan model kata referensi 200 ucapan yang diujikan maka terdapat 163
https://doi.org/10.25077/ jnte.v7n3.600.2018
199 jnte.ft.unand.ac.id
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
ucapan dapat dikenali sebagai kata yang sesuai. 4.2Pengujian dengan Teknologi Kinect Pada
Berarti keakuratan sebesar 81,5%. pengujian ini dilakukan secara langsung
dengan sumber tidak dilatih. Pengujian dilakukan
4.1.2 Pengujian Pengenalan Bentuk di Laboratorium Multimedia Telekomunikasi
Benda dengan Mikrofon Secara Politeknik Negeri Padang dengan 25 mahasiswa.
Online Hasil pengujian dapat dilihat pada tabel 3 dan
prosesnya pada gambar 14.
Pengujian pengenalan bentuk benda secara
online yaitu pengambilan data langsung, dapat Tabel 3 . Hasil pengujian pengenalan bentuk
dilihat pada gambar 13a dan 13b. Gambar 13a benda dengan kinect sumber tdak terlath
menampilkan proses rekam suara, dimana Kata yang Juml Jumlah Jumlah Persen
sumber mengucapkan kata lingkaran. Sedangkan diucapkan ah ucapan ucapan tase
gambar 13b proses rekam telah selesai, dan ucapa yang yang benar
n benar salah
menampilkan sinyal suara dan bentuk benda
Lingkaran 25 23 2 92%
dikenali lingkaran. Segi tiga 25 21 3 84%
Segi Empat 25 21 3 84%
Segi Banyak 25 19 5 76%
Rata-rata 84%
https://doi.org/10.25077/ jnte.v7n3.600.2018
jnte.ft.unand.ac.id 200
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
Pada tulisan ini, pengujian pengenalan bentuk Cepstrum Coeffecient Dan Hidden
benda telah berhasil dilakukan dengan 2 teknologi Markov Model Untuk Mengontrol Gerak
yaitu transducer mikrofon dan teknologi Kinect. Robot Mobil Penjejak Identifikasi
Hasil pengujian identifikasi atau pengenalan Warna", Tugas Akhir. Padang: Teknik
bentuk benda ada 2 yaitu perintah kata yang Elektro Universitas Andalas. 2011.
dikenali (menggunakan pengolahan suara) dan
[2] Hardiyanti, Margareta, "Rancang
tracking objek (menggunakan pengolahan citra).
Bangun Aplikasi Pembelajaran
Keberhasilan akurasi kata dikenali dapat dilihat
Pengucapan bagi Penderita Tunarungu
pada tabel 1, tabel 2 dan tabel 3. Sedangkan
Menggunakan Teknologi Kinect",
tracking objek mengikuti kata yang dikenali dan
Institut Teknologi Sepuluh Nopember,
dilanjutkan ekstraksi citra bentuk. Jika pengucapan Surabaya, 2013.
kata segitiga, tetapi yang dikenali lingkaran maka
bentuk benda yang akan tampil lingkaran. [3] Cahyarini Ratri, "Rancang Bangun Modul
Tracking objek diawali dengan mengkonversi Pengenalan Suara Menggunakan
ruang warna citra RGB menjadi grayscale, dimana Teknologi Kinect", Jurnal Teknik Pomits
digunakan dalam ekstraksi citra berbasis aturan Vol. 2, No. 1, ISSN: 2337-3539. 2013.
(rule based) sederhana berdasarkan bentuk benda.
[4] Kinect, 2018. [Online]. Available:
Pengujian bentuk benda setelah kata dikenali tidak
http://en.wikipedia.org/wiki/Kinect.
hanya 4 jenis bentuk benda seperti gambar 13a,
akan tetapi dilakukan dengan kombinasi warna dan [5] Fitrilina, Kurnia Rahmadi, Aulia Siska,
bentuk atau posisi lain dari masing-masing bentuk "Pengenalan Ucapan Metoda MFCC-
benda. Pengujian kombinasi warna, bentuk dan HMM untuk Perintah Gerak Robot
posisi dari bentuk benda dapat dilihat pada gambar Mobil Penjejak Identifikasi Warna",
12c dan 14. Jurnal Nasional Teknik Elektro, Vol 2
No.1 Maret 2013.
https://doi.org/10.25077/ jnte.v7n3.600.2018
201 jnte.ft.unand.ac.id
Siska Aulia: Jurnal Nasional Teknik Elektro, Vol.7, No.3, November 2018
Science and Technology for Sustainable [15] X. Chai, G Li, M. Zhou, "Sign Language
Development, Kuala Lumpur, May, 2016 Recognition and Translation with
. Kinect". In Proceedings of IEEE
International Conference on Automatic
[11] G. Archana , "Dynamic Hand Gesture Face and Gesture Recognition,
Recognition using Hidden Markov Shanghai, China, April 2013.
Model by Microsoft Kinect Sensor",
International Journal of Computer
Applications, vol.150, no.5, September BIODATA PENULIS
2016.
[12] https://www.electronicstutorials.ws/ Siska Aulia, menyelesaikan pendidikan S1 dan
io/io_8.html S2 di Universitas Andalas. Saat ini bekerja
[13] D. W. J. Stein, "Detection of Random sebagai dosen di Jurusan Teknik Elektro,
Politeknik Negeri Padang.
and Sinusoidal Signals in Hidden
Markov Noise", Procedding of the 30th Lifwarda, menyelesaikan pendidikan S1 di ITS
IEEE Asilomar Conference on Signal Surabaya dan S2 di UPI YPTK Padang. Saat ini
Systems and Computers, 464-468. 1997. bekerja sebagai dosen di Jurusan Teknik Elektro,
Politeknik Negeri Padang.
[14] M. J. Landau, "Simulating Kinect
Infrared and Depth Images", IEEE Yustini, menyelesaikan pendidikan Diploma di
Transactions On Cybernetics, Vol. 46, Politeknik Unand, Diploma IV di Institut
No. 12, December 2016. Teknologi Bandung dan S2 di ISTN Jakarta. Saat
ini bekerja sebagai dosen di Jurusan Teknik
Elektro, Politeknik Negeri Padang.
https://doi.org/10.25077/ jnte.v7n3.600.2018
jnte.ft.unand.ac.id 202