Speech Recognition

KECERDASAN BUATAN
GROUP4 SPEECH RECOGNITION
DISUSUN OLEH :
Rasimah Binti Abuhari

NurJannah
Muhammad Azhar Hairuddin
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI ALAUDDIN MAKASSAR
2014
KATA PENGANTAR
Puji syukur kami panjatkan kehadirat Allah SWT. karena rahmat serta
hidayah-Nyalah sehingga kami dapat menyusun makalah yang berjudul “Speech
Recognition”. Makalah ini kami buat dengan tujuan menjelaskan secara sederhana
tentang Speech recognition khususnya bagi mahasiswa – mahasiswa yang bergelut di
dunia kecerdasan buatan. Makalah ini juga membantu untuk lebih jauh mengetahui
tentang speech recognition.
Kami juga tak lupa mengucapkan terima kasih kepada segenap pihak yang
telah banyak membantu, mendorong dan membina kami sehingga dapat
menyelesaikan makalah ini. Seperti pepatah yang mengatakan bahwa “tak ada gading
yang tak retak“ seperti pula makalah ini tentu banyak kekurangan dan kesalahan.
Karena itu para pembaca khususnya Dosen mata kuliah ini, dimohon kritik dan saran
yang bersifat membangun untuk penyempurnaan makalah kami yang selanjutnya.
Samata-Gowa, 30 November 2014
Penyusun
DAFTAR ISI
HALAMAN JUDUL i
KATA PENGANTAR ii
DAFTAR ISI iii
BAB I PENDAHULUAN 1
A. Latar Belakang 1
B. Rumusan Masalah 2
C. Manfaat Pembahasan 3
BAB II PEMBAHASAN 5
A. Pengertian Speech Recognition 5
B. Sejarah Speech Recognition 6
C. Skema Utama dan Algoritma Speech Recognition 7
D. Implementasi Speech Recognition 11
BAB III PENUTUP 13
A. Kesimpulan 13
DAFTAR PUSTAKA 14
BAB I
PENDAHULUAN
A. Latar Belakang
Hadirnya teknologi informasi berdampak pada perubahan dan menjadikan
mudahnya melakukan pekerjaan-pekerjaan manusia dalam berbagai bidang, seperti :
sektor bisnis, sektor pemerintahan dan sektor lainnya. Teknologi pada dasarnya
dibuat dan dikembangkan sebagai alat utnuk membantu manusia, tetapi apakah semua
manusia dapat merasakanya atau dapat menggunakan produk teknology yang selama
ini dikembangkan. Sebagai manusia yang memiliki panca indera yang utuh dan
sempurna mungkin tidak masalah dalam menggunakan produk teknologi. Lalu
bagaimana dengan mereka yang tidak memiliki panca indera yang utuh ? oleh sebab
itu dengan memanfaatkan teknologi speech recognition diharapkan dapat
menyelesaikan permasalahan diatas dan lebih memudahkan manusia dalam
melakukan pekerjaan manusia dalam berbagai bidang.
B. Rumusan Masalah
1. Jelaskan apa itu Speech Recognition !
2. Jelaskan Sejarah Speech Recognition ?
3. Bagaimana Skema Utama dan Algoritmanya ?
4. Bagaimana Implementasinya ?
C. Manfaat Pembahasan
1. Untuk mengetahui Apa itu Speech Recogition.
2. Untuk mengetahui sejarah dari penemuan Speech Recognition.
3. Untuk mengetahui skema serta algoritma Speech Recognition.
4. Untuk mengetahui Implementasi dari Speech Recognition.
BAB II
PEMBAHASAN
A. PENGERTIAN SPEECH RECOGNITION
Speech Recognition adalah proses identifikasi suara berdasarkan kata yang

diucapkan dengan melakukan konversi sebuah sinyal akustik, yang ditangkap oleh
audio device (perangkat input suara). Speech Recognition juga merupakan sistem
yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian
diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Pada saat ini,
sistem ini digunakan untuk menggantikan peranan input dari keyboard dan mouse.
Keuntungan dari sistem ini adalah pada kecepatan dan kemudahan dalam
penggunaannya. Kata – kata yang ditangkap dan dikenali bisa jadi sebagai hasil akhir,
untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan
dokumen. Parameter yang dibandingkan ialah tingkat penekanan suara yang
kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan
sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker
recognition. Pada makalah ini hanya akan dibahas mengenai speech recognition
karena kompleksitas algoritma yang diimplementasikan lebih sederhana daripada
speaker recognition.
Algoritma yang akan diimplementasikan pada bahasan mengenai proses speech

recognition ini adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang
cukup efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk
diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk
pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang
berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi
beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan
dengan cara melakukan pencocokan pola digital suara.
B. SEJARAH SPEECH RECOGNITION
Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan

untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas subyek,
dilakukan perbandingan kecocokan antara data biometric subyek dalam database
berisi record karakter subyek. Sedangkan verifikasi adalah menentukan apakah
subyek sesuai dengan apa yang dikatakan terhadap dirinya.
Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada

satu atau lebih ciri-ciri fisik atau tingkah laku yang unik. Biometric Recognition atau
biasa disebut dengan Sistem pengenalan biometric mengacu pada identifikasi secara
otomatis terhadap manusia berdasarkan psikological atau karakteristik tingkah laku
manusia. Ada beberapa jenis teknologi biometric antara lain suara (speech
recognition).
Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir
tahun 1960, metode yang berupa model statistik dari rantai Markov ini semakin
banyak dipakai pada tahun-tahun terakhir terutama dalam bidang speech recognition,
seperti dijelaskan oleh Lawrence R. Rabiner dalam laporannya yang berjudul “A
Tutorial on Hidden Markov Models and Selected Applications in Speech
Recognition”
Proses dalam dunia nyata secara umum menghasilkan observable output yang
dapat dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit (karakter dalam
alfabet) maupun kontinu (pengukuran temperatur, alunan musik). Signal bisa bersifat
stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal
berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara
benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin
melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem
prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model
signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik dan model
statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah signal
seperti : amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan model statistikal
menggunakan nilai-nilai statistik dari sebuah signal seperti: proses Gaussian, proses
Poisson, proses Markov, dan proses Hidden Markov.
Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
 N, yaitu jumlah state dalam model. Secara umum state saling terhubung satu
dengan yang lain, dan suatu state bisa mencapai semua state yang lain dan
sebaliknya (disebut model ergodic). Namun hal tersebut tidak mutlak, terdapat
kondisi lain dimana suatu state hanya bisa berputar ke diri sendiri dan
berpindah ke satu state berikutnya, hal ini bergantung pada implementasi dari
model.
 State Transition Probability { } -> ij A a
 Observation Symbol Probability pada state j, { } () -> j Bb k
 Initial State Distribution -> i p p
Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai

generator untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah
salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.
C. SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Terdapat 4 langkah utama dalam sistem pengenalan suara:
 Penerimaan data input

 Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database
untuk template.
 Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data
suara (pencocokan tata bahasa) pada template.
 Validasi identitas pengguna.
Skema Speech Recogition

Secara umum, speech recognizer memproses sinyal suara yang masuk dan
menyimpannya dalam bentuk digital. Hasit proses digitalisasi tersebut kemudian
dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan
membandingkannya dengan template suara pada database sistem.
Spektrum Suara
Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan
urutannya. Pemilahan ini dilakukan agar proses analisis dapat dilakukan secara
paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu
spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi
yang dibagi menjadi dua bagian :
 Transformasi gelombang diskrit menjadi array data.

 Untuk masing-masing elemen pada aiTay data, hitung "ketinggian"
gelombang(frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa
data diskrit gelombang suara.
Ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang
diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses
algontma seianjutnya (pencocokan) lebih mudah diiakukan. Namun, efek buruknya
ialah array of array data yang terbentuk akan lebih banyak.
Contoh Hasil konversi Sinyal Diskrit
Dari tiap elemen array data tersebut, dikonversi ke dalam bentuk bilangan biner. Data
biner tersebut yang nantinya akan dibandingkan dengan template data suara.
Proses divide and conquer:
 Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan

ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
 Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer)
menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
 Objek data dimasukkan ke dalam table (sebagai elemen tabel).
 Untuk setiap elemen data, dicocokkan dengan data pada template (pada data
template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan
cara yang sama dengan proses digitaiisasi data masukan bam yang ingin
dicocokkan).
 Setiap upa masalah disatukan kembali dan dianalisis secara keseluruhan,
kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan
kata yang tersedia pada template data.
 Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang
mengimplementasikan algoritma ini.
D. IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam implementasi Speech Recognition :
 Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer

yang fungsinya sebagai perangkat input dan output suara untuk mengubah
sinyal elektrik, menjadi analog maupun menjadi digital.
 Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang
melewati udara, air dari benda orang menjadi sinyal elektrik.
 Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan
gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner
yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan
database yang berisi berkas suara agar dapat dikenali.
Contoh Implementasi teknologi Speech Recognition :

Saat ini pada tahun 2010 Microsoft windows vista dan windows 7 , speech
recognition telah disertakan dalam system operasinya . sebagaimana fungsi dari
speech recognition menterjemahkan pengucapan kata – kata kedalam bentuk teks
digital. Salah satu implementasi speech recognition adalah pada konfrensi PBB
dimana seluruh Negara tergabung dalam keanggotaan nya , fungsi speech recognition
dalam hal ini menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa
yang dipahami pendengar . Contoh penggunaan lain speech recognition adalah
Perawatan kesehatan.
Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi

pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang
diberikan dapat didistribusikan daripada diganti. Pengenalan pembicaraan dapat
diimplementasikan di front-end atau back-end dari proses dokumentasi medis. Front-
End SR adalah salah satu alat untuk mengidentifikasi kata-kata yang ucapkan dan
ditampilkan tepat setelah mereka berbicara Back-End SR atau SR tangguhan adalah
di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang
diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan
bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan
memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri
saat ini.
Banyak aplikasi Electronic Medical Records (EMR) dapat menjadi lebih efektif
dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan
pengenalan-mesin bicara. Pencarian, query, dan pengisian formulir semua bisa lebih
cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard.
BAB III
KESIMPULAN
Speech recognition merupakan salah satu jenis biometric recognition, yaitu

proses komputer mengenali apa yang diucapkan seseorang berdasarkan intonasi suara
yang dikonversikan ke dalam bentuk digital print. Pengenalan pola suara adalah salah
satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk
berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu
fungsinya ialah untuk meningkatkan efisiensi industri manufaktur, mengontrol mesin
dengan berbicara pada mesin itu.
Algoritma yang diimplementasikan untuk masalh pengenalan suara ini adalah

algoritma divide and conquer. Proses awalnya ialah mengkonversi data spektrum
suara ke dalam bentuk digital dan mengubah dalam bentuk diskrit. Dari bentuk diskrit
itulah yang kemudian mengaplikasika algoritma divide and conquer untuk
mengoptimalkan waktu pencocokan (kompleksitas berkurang). Contoh aplikasi yang
menerapkan speech recognition antara lain Microsoft Voice dan Microsoft Dictation.
DAFTAR PUSTAKA
1. http://id.wikipedia.org/wiki/Pengenalan_ucapan
2. http://yanti91.blogspot.com/2012/10/tugas-2-speech-recognition_12.html,
3. M.A.Anusuya and S.K.Katti.2009.speech recognition by Machine:A review.(online),
(arxiv.org/pdf/1001.2267,diakses pada 30 november 2014).
4. Lippmann, R. 1997. Speech Recognition by Machine and humans. (online),
(http://www.ee.columbia.edu/-dpwe/clases/e6820-2006-01/papers/Lipp97-
hummach.pdf,diakses pada 30 november 2014)
5. http://asrindonesia.blogspot.com/
6. http://en.wikipedia.org/wiki/Speech_recognition
7. http://www.informatika.org/~rinaldi/Stmik/2007-
2008/Makalah2008/MakalahIF2251-2008-077.pdf

Speech Recognition

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Speech Recognition

Diunggah oleh

Hak Cipta:

Format Tersedia

KECERDASAN BUATAN

GROUP4 SPEECH RECOGNITION

Rasimah Binti Abuhari

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI ALAUDDIN MAKASSAR

Samata-Gowa, 30 November 2014

DAFTAR ISI iii

A. Pengertian Speech Recognition 5

B. Sejarah Speech Recognition 6

C. Skema Utama dan Algoritma Speech Recognition 7

D. Implementasi Speech Recognition 11

BAB III PENUTUP 13

A. PENGERTIAN SPEECH RECOGNITION

Speech Recognition adalah proses identifikasi suara berdasarkan kata yang

Algoritma yang akan diimplementasikan pada bahasan mengenai proses speech

B. SEJARAH SPEECH RECOGNITION

Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan

Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada

Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:

Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai

Terdapat 4 langkah utama dalam sistem pengenalan suara:

 Penerimaan data input

Skema Speech Recogition

 Transformasi gelombang diskrit menjadi array data.

Contoh Hasil konversi Sinyal Diskrit

 Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan

D. IMPLEMENTASI SPEECH RECOGNITION

Hardware yang dibutuhkan dalam implementasi Speech Recognition :

 Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer

Contoh Implementasi teknologi Speech Recognition :

Dalam perawatan kesehatan domain, bahkan di bangun meningkatkan teknologi

Speech recognition merupakan salah satu jenis biometric recognition, yaitu

Algoritma yang diimplementasikan untuk masalh pengenalan suara ini adalah

3. M.A.Anusuya and S.K.Katti.2009.speech recognition by Machine:A review.(online),

(arxiv.org/pdf/1001.2267,diakses pada 30 november 2014).

4. Lippmann, R. 1997. Speech Recognition by Machine and humans. (online),

Anda mungkin juga menyukai