Abstract
Suara atau ucapan adalah cara berkomunikasi yang paling sering dilakukan oleh manusia.
Komunikasi yang dilakukan antara manusia dan komputer sering disebut sebagai Human
Computer Interface (HCI) atau Interaksi manusia dan komputer (IMK). Pengenalan suara atau
Speech Recognition menjadi salah satu hal potensial penting yang menjadi perhatian dalam
interaksi antara manusia dan komputer. Desain dari sistem Speech Recognition membutuhkan
perhatian dan penanganan yang khusus dan hati-hati, pada sistem itu terdapat beberapa kendala:
realisasi akustik fonem, keragaman akustik, keragaman pengucapan atau dialek bahasa, kondisi
emosional pembicara, kecepatan berbicara atau kualitas suara, lingkungan.
Keywords: Pengenalan suara, Pengolahan Suara, Interaksi Manusia dan Komputer, ASR.
Pendahuluan
Speech Recognition atau Automatic Speech Recognition (ASR) atau pengenalan suara
adalah sebuah proses konversi sinyal suara menjadi kata atau perintah. Dalam hal ini diperlukan
sebuah algoritma yang diinmplementasikan menjadi sebuah program komputer untuk menjalankan
perintah tersebut. Aplikasi pengenalan suara yang telah diimplementasikan hingga saat ini antara
lain untuk melakukan panggilan (Misalnya, "Panggil Ayah"), Melakukan input data sederhana
(Misalnya, memasukkan nomor kartu kredit), Pengolahan kata menjadi teks (Misal, windows
speech recognition), sistem pesawat (Misal, pengatur lalu-lintas udara atau yang dikenal
dengan Air Traffic Controllers ).
Pembahasan
Model dasar Speech Recognition
Penelitian di bidang pengolahan suara telah memotivasi banyak orang untuk menciptakan
model mekanik untuk meniru kemampuan komunikasi verbal manusia. Berbicara adalah bentuk
komunikasi manusia yang paling dasar, dan pengolahan suara telah menjadi salah satu hal yang
paling diperhatikan dalam bidang signal processing. Tujuan utama dari teknologi pengenalan
suara adalah menciptakan sebuah teknik dan sistem untuk memasukkan perintah suara ke dalam
mesin, agar mesin dapat mengerti apa yang manusia ucapkan dan mematuhi apa yang
diperintahkannya.
Sejarah Speech Recognition
Sejarah perkembangan dari speech recognition telah dimulai lebih dari 1 abad yang lalu,
dalam sejarah ada beberapa peristiwa penting yang tercatat, yaitu:
Tahun 1874 : Alexander Graham Bell berhasil membuktikkan bahwa frekuensi harmoni dari
sebuah sinyal elektrik dapat dibagi-bagi yang kemudian hari berlanjut pada digitalisasi ucapan.
Tahun 1952 : Bell Labs mengembangkan speech recognizer pertama dengan menggunakan
teknologi pemisah frekuensi yang serupa dengan teknologi yang dikembangkan oleh
Alexander Graham Bell.
1971-1976 : Defence Advance Research Project Agency dibentuk yang merupakan proyek
riset dengan dana dari pemerintah AS. Tujuan dari proyek ini adalah untuk melakukan
penelitian teknologi speech recognition. Penemuan terbesar yang dihasilkan proyek ini adalah
peningkatan dalam menekan permasalahan variabilitas suara. Pada rentang tahun yang sama
pula ditemukan :
Pemrograman dinamik oleh tiga peneliti asal Jepang, Itakura, Skoe, dan Chiba yang
dikemudian hari menjadi dasar bagi deret waktu non-linier.
Pemodelan Makov oleh Jim Baker dan Fred Jelinek dari IBM yang merupakan pemodelan
untuk menentukan letak informasi tetap dalam sebuah sinyal suara (speech signal).
Pertengahan tahun 1970-an : Itakura mengadakan sebuah riset untuk mengembangkan
sebuah produk yang berbasis pada asumsi bahwa noise itu walaupun terdengar sama namun
pada kenyataannya tidak demikian. Produk tersebut akurasinya mencapai 97,3% saat diuji
menggunakan 200 kosakata.
Bell Labs mengembangkan sistem yang mampu mengenali suara dari orang-orang yang
berbeda dengan akurasi hingga 97,1%.
Akhir tahun 1970-an : Produk speech recognition pertama mulai dipasarkan dengan harga
mulai $259 hingga $100.000.
Tahun 1980-an : Pasaran speech recognition mulai digolongkan menjadi dua, yaitu Call
Center Speech Recognition System dan Speech-to-Text Application.
Tahun 1990-an : Prosesor sebuah personal computer telah sanggup memenuhi level
minimal yang diperlukan agar sebuah software speech recognition dapat berjalan dengan
lancar serta efektif untuk penggunaan pribadi.
Tahun 1999 : Sebuah program speech recognition baru telah mampu memahami
pembicaraan manusia secara berkesinambungan dengan tingkat akurasi hingga 99% yang
membuatnya dapat dengan mudah digunakan oleh pengguna awam sekaligus.
Jenis-jenis Speech Recognition
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan
kata, yaitu :
1.
2.
3.
4.
5.