Anda di halaman 1dari 14

MAKALAH

SPEECH RECOGNITION

Diajukan untuk memenuhi tugas kelompokk pada mata kuliah Al for education

Dosen pengampu :

Winda Setya, M.Sc

Fadli Emsa Zamani, ST ., M. KOM.

Disusun oleh : Kelompok 7

Siti Hafidah Hartanti (1212020242)

Siti Nurfaizah (1212020246)

Siti Sarah Nurul Rohmah (1212020248)

Ulfah Marhamah (1212020265)

PENDIDIKAN AGAMA ISLAM

FAKULTAS TARBIYAH DAN KEGURUAN

UNIVERSITAS ISLAM NEGERI SUNAN GUNUNG DJATI BANDUNG

2022

1
KATA PENGANTAR

Puji dan syukur penulis panjatkan kehadirat Allah Swt. karena yang atas rahmat, karunia
serta kasih sayang-Nya penulis dapat menyelesaikan makalah tentang Sistem Speech
Recognition mata kuliah Artificial Intellegence for education dengan sebaik mungkin. Sholawat
serta salam semoga tetap tercurah limpah kepada Nabi Muhammad Saw. beserta keluarga, dan
para sahabatnya. Tidak lupa, penulis ucapkan terimakasih kepada Ibu Winda Setya, M.Sc. dan
Bapak Fadli Emsa Zamani, ST., M.Kom. selaku dosen pengampu pada mata kuliah Artificial
Intellegence for Education.

Dalam penulisan makalah ini penulis menyadari banyak terdapat kesalahan dan
kekeliruan, baik yang berkaitan dengan materi pembahasan maupun teknik pengetikan.
Walaupun demikian, inilah usaha maksimal penulis selaku penyusun makalah. Semoga
pembahasan dalam makalah ini dapat menambah wawasan pengetahuan para pembaca,
mendukung pembelajaran dan bermanfaat bagi masyarakat. Selain itu penulis harap kritik yang
membangun dari para pembaca guna memperbaiki kesalahan sebagaimana mestinya.

Bandung, 12 November 2022

Penulis

2
DAFTAR ISI

KATA PENGANTAR ................................................................................................................... 2


DAFTAR ISI.................................................................................................................................. 3
BAB I .............................................................................................................................................. 4
PENDAHULUAN ......................................................................................................................... 4
A. Latar Belakang ..................................................................................................................... 4
B. Rumusan Masalah ................................................................................................................ 5
C. Tujuan .................................................................................................................................. 5
BAB II ............................................................................................................................................ 6
PEMBAHASAN ............................................................................................................................ 6
A. Definisi Speech Recognition................................................................................................ 6
B. Sejarah Speech Recognition ................................................................................................ 6
C. Pemodelan Speech Recognition ........................................................................................... 7
a. Unsur dan Arsitektur HMM ............................................................................................. 8
D. Proses Kerja Alat Speech Recognition ................................................................................ 9
BAB III......................................................................................................................................... 12
PENUTUP .................................................................................................................................... 12
A. Kesimpulan ........................................................................................................................ 12
DAFTAR PUSTAKA .................................................................................................................. 14

3
BAB I

PENDAHULUAN

A. LATAR BELAKANG

Speech recognition atau pengenalan pola suara juga dikenal sebagai Automatic
Speech Recognition (ASR) merupakan sistem yang digunakan untuk mengenali perintah
kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti
oleh komputer. Sistem speech recognition dapat diartikan juga sebagai proses mengubah
inputan suara ke media lain misalnya teks oleh karena itu speech recognition terkadang
disebut sebagai speech-to-text (STT). Sistem pengenalan pola suara dibangun oleh
beberapa komponen utama diataranya microphone untuk input suara, perangkat lunak
pengenalan suara, komputer untuk mengambil data suara, dan soundcard untuk input atau
output.
Speech recognition adalah salah satu bidang kecerdasan mesin yang sedang
berkembang pesat, hal itu ditandai oleh hampir semua device teknologi dilengkapi oleh
voice command. Hal ini telah menarik bagi para peneliti untuk menjadikan speech
recognition sebagai disiplin ilmu yang penting untuk menciptakan dampak teknologi
pada masyarakat dan diharapkan akan berkembang lebih jauh di bidang interaksi mesin
dengan manusia.
Tujuan penelitian pengenalan suara adalah untuk menciptakan sistem cerdas,
sebuah sistem pengenalan pola suara yang dapat mendengarkan apa yang pengguna
ucapkan kemudian melakukan instruksi yang diperintahkan. Salah satu contoh
sederhananya adalah penggunaan voice command untuk menggantikan fungsi keyboard
pada komputer ataupun smartphone. Proses mengubah pola suara ke dalam teks terlihat
sederhana, namun kenyataannya melalui proses transkripsi yang rumit.

4
B. Rumusan Masalah

1. Apa Definisi dari Speech Recognition?


2. Bagaimana sejarah perkembangan Speech Recognition?
3. Apa contoh dari pemodelan Speech Recognition?
4. Bagaimana proses kerja alat Speech Recognition?

C. Tujuan

1. Untuk mengetahui definisi dari Speech Recognition


2. Unruk mengetahui sejarah dari perkembangan Speech Recognition
3. Untuk mengatahui contoh-contoh pemodelan dari Speech Recognition
4. Untuk mengetahui proses alat kerja Speech Recognition

5
BAB II

PEMBAHASAN

A. Definisi Speech Recognition

Speech Recognition atau yang biasa dikenal dengan automatic speech recognition (ASR)
merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat
untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan
mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu
perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara
mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan
kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata
yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat
teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan
tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

B. Sejarah Speech Recognition

Sejarah perkembangan speech recognition dimulai pada tahun 1952 dengan ditemukannya
Audrey (automatic digit recognizer) oleh Bell Laboratories yang mampu mengenali suara angka.
Namun pada tahun 1962 dikembangkannya teknologi shoebox , dimana teknologi ini mampu
memahami 16 kata , 9 konsonan dan 4 vocal dalam Bahasa inggris. Selanjutnya pada tahun
1970-an Departemen Pertahanan A.S. memberikan kontribusi besar terhadap pengembangan
speech recognition mengenai program DARPA SUR (speech understanding research) yang
menghasilkan sistem dengan kemampuan memahami 1011 kata dan juga kalimat yang logis
dalam Bahasa inggris. Selanjutnya pada tahun 1980-an sebuah terobosan besar mengenai
pengembangan model Hidden Markov yang menggunakan statiska untuk menentukan
probabilitas kata dari suara yang tidak dikenal. Sistem tersebut diadopsi dalam sebuah boneka
yang dibuat untuk anak-anak yang di kenal sebai Julie. Boneka tersebut dilatih dengan
kemampuan untuk menanggapi upacan namun masih ada kelemahannya yaitu pemberian jeda
pada kata yang diucapkan. Kemudian pada tahun 1990-an perusahaan yang bernama DRAGON
merilis sebuah speech recognition software pertama di dunia yang bernama Dragon Naturally

6
Speaking yang membuat kita dapat mengucapkan 100 kata dalam 1 menit. Sedangkan pada tahun
2000-an sampai sekarang pengembangan speech recognition terus dikembangkan dengan
didukung dengan teknologi-teknologi yang super canggih juga dan memungkinkan semakin
canggih juga kemampuan speech recognition yang dihasilkan. Salah satu penerapan speech
recognition yang terkenal saat ini yaitu munculnya aplikasi google voice search yang dirilis oleh
google untuk iphone yang memanfaatkan data centers untuk menghitung sejumlah besar analisis
data yang diperlukan untuk mencocokan permintaan pengguna dengan contoh-contoh nyata
ucapan manusia.

C. Pemodelan Speech Recognition

Teknologi pengenal suara (speech recognition) merupakan teknologi yang berkembang pesat
dalam bidang kecerdasan buatan (artificial intelligent). Saat ini, teknologi pengenal suara
menjadi hal yang komersil melalui berbagai media teknologi seperti smartphone dan komputer.
Salah satu pembentuk struktur pengenal suara agar dapat bekerja pada perangkat tersebut adalah
model statistik pengenal suara Hidden Markov Model (HMM). Penerapan HMM pada berbagai
kasus menunjukkan bahwa model ini cocok dengan berbagai macam data. Tulisan ini merupakan
sebuah tinjauan untuk model HMM yang bertujuan untuk memberikan gambaran dan
pemahaman terhadap kinerja HMM melalui rangkuman sejumlah penelitian yang digunakan
dalam berbagai data. Penerapan HMM tersebut menunjukkan optimalisasi kinerja HMM dan
tinjauan terhadap sejumlah penelitian menunjukkan bahwa tingkat keberhasilan HMM dalam
mengenali data mencapai 71.43%.

Automatic Speech Recognition (ASR) dibangun dari bemacam-macam model statistik yakni
model Akustik, model Bahasa, model Leksikon dan model Hidden Markov. Model Hidden
Markov atau dikenal dengan Hidden Markov Model (HMM) adalah model yang umum
digunakan untuk menyelesaikan berbagai kesulitan dalam pengenalan suara (Vimala, 2012).
Keluaran HMM adalah sekuens dari simbol atau kuantitas, dimana sebuah sinyal dari
pengucapan bisa dilihat seperti piecewise stationary signal atau short-time stationary signal
(Sunny, 2009). HMM dikenal dapat diujikan secara otomatis, sederhana dan secara komputasi
layak untuk digunakan (C. P. Dalmiya). Tinjauan tentang kinerja HMM menjadi tujuan tulisan
ini dijabarkan. Sejumlah alasan HMM digunakan, tergambar pada berbagai penelitian yang telah
dilakukan hingga sekarang. Pada penelitian (Debbarma, 2014), HMM membantu mengenali

7
emosi manusia melalui suara. Percakapan yang diubah menjadi teks dan sebaliknya, merupakan
hasil penggunaan HMM dengan program dinamik (A. Trivedi, 2018) dan kombinasi HMM
dengan beberapa sinyal audio (Antonio, 2015). HMM juga sangat membantu dalam pengenalan
suara di bidang akademik dan industri sejak tahun 2012 (al, 2018)] serta mengenali wajah (N. W.
Pratiwi, 2018). Pada beberapa penelitian yang membutuhkan database suara dengan jumlah
besar, HMM sering dikombinasikan atau digabungkan dengan model atau algoritma berbeda
untuk memperoleh hasil suara yang lebih jelas dan dipahami. Penelitian memperlihatkan
bagaimana HMM dikembangkan yang disebut dengan utterance. Utterance adalah pengucapan
satu kata, beberapa kata, kalimat bahkan beberapa kalimat. Artinya, kemungkinan HMM dapat
bekerja lebih baik bila digabungkan dengan metode atau model atau algoritma lainnya. Selain
itu, HMM juga dapat mendeteksi berbagai kegiatan dalam dunia bisnis, seperti fraud perkiraan
harga minyak mentah dan prediksi peluang kenaikan harga saham Tidak hanya itu, HMM turut
membantu menghasilkan penelitian yang mampu mendeteksi noise saat HMM beroperasi dan
mengubah nilai threshold seperti teta.

a. Unsur dan Arsitektur HMM

HMM merupakan pengembangan dari teorema Bayes dan proses Markov (Z. Ghahramani, 9-
42). HMM bertujuan untuk menentukan atau merepresentasikan parameter (state) tersembunyi
berdasarkan sejumlah data observasi yang ada. Penerapan ASR melalui model HMM menjadi
dasar berkembangnya HMM pada berbagai kasus pengenalan suara. Secara umum, model HMM
memiliki unsur-unsur sebagai berikut :

1. N: yaitu jumlah state dalam model. Secara umum state saling terhubung satu dengan yang
lain, dan suatu state bisa mencapai semua state yang lain dan sebaliknya (disebut model
ergodic). Namun hal tersebut tidak mutlak, terdapat kondisi lain dimana suatu state hanya
bisa berputar ke diri sendiri dan berpindah ke satu state berikutnya, hal ini bergantung
pada implementasi dari model.
2. M: yaitu jumlah observasi simbol secara unik pada tiap state, misalnya: karakter dalam
alfabet, dimana state adalah huruf dalam kata.
3. State Transition Probability: yaitu kemungkinan perubahan kata dengan ketentuan A=
{aij}

8
4. Observation Symbol Probability pada State: yaitu kegiatan observasi pada kemungkinan
perubahan setiap state j, B={bj(k)}
5. Initial State Distribution: yaitu inisialisasi state yang telah didistribusikan π = { πi}
Dengan memberikan nilai pada N, M, A, B, dan π, HMM dapat digunakan sebagai
generator untuk menghasilkan urutan observasi. HMM sangat berpotensi untuk
dikembangkan sesuai dengan kasus pengenalan suara yang hendak dibangun Hal ini
dikarenakan HMM memiliki framework yang dibagun dari unsur matematis, mudah
diterapkan dan layak secara komputasi.

D. Proses Kerja Alat Speech Recognition

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :

1) Tahap penerimaan masukan : sumber suara diterima melalui media perantara.


2) Tahap ekstraksi : penyimpanaan masukan yang berupa suara dan sekaligus pembuatan
basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov
Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari
sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter
yang tidak diketahui.: o N, yaitu jumlah bagian dalam model. Secara umum bagian
tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua
bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut
tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri
sendiri dan berpindah ke satu bagian berikutnya.

Hal ini bergantung pada pengimplimentasian model.

 Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM : Tahap ekstraksi
tampilan : Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital.
 Tahap tugas pemodelan : Pembuatan suatu model HMM dari data-data yang berupa
sampel ucapan sebuah kat yang sudah berupa data digital
 Tahap sistem pengenalan HMM : Penemuan parameter-parameter yang dapat
3) Tahap pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data
suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi
sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan

9
dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya,
data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya.
Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
 Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara
ke bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua
bagian :
 Transformasi gelombang diskrit menjadi data yang terurut : Gelombang diskrit berbentuk
masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan
cara pembagian rincian waktu.

- Menghitung frekuensi pada tiap elemen data yang terurut


- Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk
bilangan biner.

Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian
diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.

4) Tahap validasi identitas pengguna : Alat pengenal ucapan yang sudah memiliki system
verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara
berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan
atau komando.
A. Implementasi Speech Recognition
a. Implementasi Speech Recognition dengan menggunakan SVM dan HMM

Metode hidden markov model dan support vector machine untuk pengenalan ucapan. Inputan
berupa sinyal suara yang direkam dalam keadaan kedap berupa kata. Data latih yang dipakai
menggunakan kata dan sukukata pembangun kata tsb. Sinyal suara tersebut dilakukan penyusain
dengan system dengan normalisasi dan pendeteksian sukukata. Hasil segmentasi suku kata
dilakukan pengekstraan cirri dengan menggunakan MFCC dan dilakukan klasifikasi persuku kata
menggunakan SVM dan pengaturan sukukata menggunakan HMM. Terdapat 10 kata yang akan
dikenali dan 19 suku kata pembangunnya. Dataset yang dipakai berjumlah 600 suku kata dan
100 kata.Pada akhir tugas akhir ini didapat akurasi SVM One-Againts-All dan HMM dengan
akurasi 90% dan SVM one-againts-one mempunyai akurasi 63.7 %. Dengan menggunakan

10
model HMM ergodic dengan hidden state sebanyak 3 dan 20Kata Kunci : SVM , HMM,
SVM/HMM.

11
BAB III

PENUTUP

A. Kesimpulan

Speech Recognition atau yang biasa dikenal dengan automatic speech recognition
(ASR) merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer
untuk menerima masukan berupa kata yang diucapkan.
Sejarah perkembangan speech recognition dimulai pada tahun 1952 dengan
ditemukannya Audrey (automatic digit recognizer) oleh Bell Laboratories yang mampu
mengenali suara angka. Namun pada tahun 1962 dikembangkannya teknologi shoebox ,
dimana teknologi ini mampu memahami 16 kata , 9 konsonan dan 4 vocal dalam Bahasa
inggris. Selanjutnya pada tahun 1970-an Departemen Pertahanan A.S. memberikan
kontribusi besar terhadap pengembangan speech recognition mengenai program DARPA
SUR (speech understanding research) yang menghasilkan sistem dengan kemampuan
memahami 1011 kata dan juga kalimat yang logis dalam Bahasa inggris.
Teknologi pengenal suara (speech recognition) merupakan teknologi yang
berkembang pesat dalam bidang kecerdasan buatan (artificial intelligent). Saat ini,
teknologi pengenal suara menjadi hal yang komersil melalui berbagai media teknologi
seperti smartphone dan komputer. Salah satu pembentuk struktur pengenal suara agar
dapat bekerja pada perangkat tersebut adalah model statistik pengenal suara Hidden
Markov Model (HMM). Penerapan HMM pada berbagai kasus menunjukkan bahwa
model ini cocok dengan berbagai macam data. Tulisan ini merupakan sebuah tinjauan
untuk model HMM yang bertujuan untuk memberikan gambaran dan pemahaman
terhadap kinerja HMM melalui rangkuman sejumlah penelitian yang digunakan dalam
berbagai data. Penerapan HMM tersebut menunjukkan optimalisasi kinerja HMM dan
tinjauan terhadap sejumlah penelitian menunjukkan bahwa tingkat keberhasilan HMM
dalam mengenali data mencapai 71.43%.

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :

1) Tahap penerimaan masukan : sumber suara diterima melalui media perantara.

12
2) Tahap ekstraksi : penyimpanaan masukan yang berupa suara dan sekaligus
pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode
Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan
model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu
proses dengan parameter yang tidak diketahui.: o N, yaitu jumlah bagian dalam
model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan
suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan
model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana
suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian
berikutnya.

13
DAFTAR PUSTAKA

https://openlibrary.telkomuniversity.ac.id/pustaka/95190/implementasi-speech-recognition-
dengan-menggunakan-svm-dan-hmm.html

Graves, A., Mohamed, A., & Hinton, G. (2013). SPEECH RECOGNITION WITH DEEP
RECURRENT NEURAL NETWORKS.

A. Trivedi, N. P. (2018). “Speech to text and text to speech recognition systems-Areview. 36-43.

al, X. Y. (2018). “CommanderSong: A Systematic Approach for Practical Adversarial Voice


Recognition. 1-17.

al., Y. L. (n.d.). Multiple perspectives HMM-based feature engineering for credit card fraud
detection. 2019.

Antonio, E. I. (2015). , “Studi Format Audio dan Teks Untuk Modul Speech to Text,”. 1-10.

C. P. Dalmiya, V. S. (n.d.). , “An efficient.

Debbarma, P. B. (2014). “A Study of Methods Involved In Voice Emotion Recognition. 5517-


5521.

N. W. Pratiwi, F. F. (2018). “Deteksi Wajah Menggunakan Hidden Markov Model (HMM). 44-
49.

Sunny, A. S. (2009). “Speech Recognition Menggunakan Algoritma Program Dinamis''. 4.

Vimala, C. (2012). “A Review on Speech Recognition Challenges and Approaches,” . 1-7.

Z. Ghahramani. (9-42). “An Introduction to Hidden Markov Models and v Models and. 2001.

14

Anda mungkin juga menyukai