Anda di halaman 1dari 3

Implementasi Speech Recognition untuk Komunikasi

BAB I

PENDAHULUAN

BAB II

ISI

Penggunaan Speech Recognition pada bidang komunikasi sangatlah banyak , namun


dalam bahasan kali ini kami hanya akan membahas beberapa saja antara lain adalah :
1. Speech Synthetizer (Text-to-speech)

Dari dulu sampai sekarang, para ahli berusaha mengimplamantasikan kecerdasan


manusia pada komputer. Berbagai aplikasi artificial intelligence (AI) disematkan dalam
komputer agar mesin ini mampu berkomunikasi dengan manusia atau paling tidak manusia.
Salah satu AI yang terus dikembangkan sampai saat ini adalah speech synthesizer yang
memungkinkan komputer berbicara dalam bahasa manusia.
Di televisi, Anda mungkin pernah menyaksikan Stephen Hawking berbicara di depan
mahasiswanya. Fisikawan yang terkenal dengan teori black hole-nya ini sudah tidak mampu
lagi mengeluarkan suara dari lisannya, namun berkat teknologi speech synthesizer, dia masih
bisa bercakap-cakap. Mesin speech synthesizer Hawking memang cukup kompleks. Alat ini
tidak hanya memproduksi suara, tetapi juga menangkap input dari gerakan mata sang doktor.
Demikian pula, misalnya, dengan aplikasi voice command yang banyak tertanam di
smartphone mutakhir yang memadukan speech recognizer dengan speech synthesizer.
Aplikasi speech synthesizer yang paling sederhana sebenarnya ada pada setiap PC
ber-OS Windows. Bila anda menekan tuts Winkey + U di keyboard, Windows akan
mengaktifkan Utility Manager, yang di dalamnya terdapat aplikasi Microsoft Narrator.
Aplikasi ini akan membaca setiap jendela yang anda aktifkan, termasuk tombol-tombol di
dalamnya. Atau, mungkin anda pernah menginstal aplikasi microsoft reader di PC. Aplikasi
yang diperuntukkan bagi file >LTT ini pun dilengkapi dengan kemampuan menerjemahkan
teks menjadi suara (text to speech) yang merupakan contoh teknologi speech sybthesizer.
Teknologi synthesizer
Kualitas terpenting dari sebuah aplikasi speech synthesizer adalah seberapa alami dan
inteligibel output yang dihasilkannya. Alami, artinya seberapa dekat suara yang dihasilkan
aplikasi speech synthesizer dengan suara manusia. Sedangkan inteligibel adalah seberapa
mudah output tersebut dipahami oleh manusia. Semua aplikasi speech synthesizer berusaha
untuk menghasilkan output yang alami dan inteligibel sekaligus.
Sampai saat ini, ada banyak teknologi untuk meng-generate gelombang suara sintetis
ini. Dua teknologi yang paling banyak digunakan adalah concatenative synthesis dan formant
synthesis. Keduanya memiliki keunggulan dan kekurangan sendiri-sendiri.
Teknologi pertama, concatenative synthesis, berbasis pada rangkaian (atau merangkai
bersama) segmen-segmen dari suara yang direkam. Umumnya, teknologi ini menghasilkan
suara sintesis yang terdengar paling alami.Namun, perbedaan antara suara alami yang
direkam dengan segmentasi gelombang bunyi kadang menghasilkan suara yang menggangu.
Mirip seperti suara pemberitahuan nomor antrean di bank atau suara call center operator
ponsel yang menyebutkan sisa pulsa dan masa berlaku kartu ponsel anda.
Teknologi kedua, formant synthesis, tidak menggunakan sampel suara manusia
melainkan membuat suara sintesi menggunakan model akustik. Parameter-parameter seperti
frekuensi dasar, alunan suara, dan tingkat kebisingan bervariasi dari waktu ke waktu untuk
menciptakan gelombang suara buatan.
Kebanyakan aplikasi berbasis teknologi ini menghasilkan suara buatan (tidak alami)
seperti suara robot. Melihat keterbatasan kedua teknologi ini dalam menghasilkan suara
buatan, seperti kita harus sabar menunggu pengembangannya lebih lanjut dalam beberapa
tahun atau dekade ke depan.

Alur kerja
Seperti halnya speech recognition , desain aplikasi speech synthesizer tidak hanya
dikerjakan oleh ahli-ahl informatika, melainkan juga melibatkan ahli-ahli linguistik. Untuk
memahami cara kerja speech synthesizer, kita mulai dari nama lainnya : text-to-speech, yang
artinya mengubah teks menjadi suara. Sekarang kita sudah mendapatkan dua elemen dalam
speech synthesizer, yakni teks sebagai elemen input, dan suara sebagai elemen output. Apa
yang terjadi di antara input dan output inilah yang disebut proses atau manipulasi. Dalam
speech synthesizer, proses dibagi menjadi dua bagian besar: front-end dan back-end.
Bagian front-end memiliki dua tugas utama. Pertama adalah mengkonversi teks
mentah yang berisi simbol-simbol seperti angka dan singkatan ke dalam huruf-huruf yang
terbaca. Sebagai contoh, tugas pertama bagian front-end mengkonversi teks 1 menjadi one,
btw menjadi by the way, dan lain-lain. Proses ini sering disebut sebagai text
normalization,pre-processing, atau tokenization. Bagian front-end ini kemudian memberikan
transkipsi fonetis pada setiap kata, memisahkannya, dan menandai teks ke dalam unit-unit
prosodik (irama, tekanan, dan intonasi), seperti frase (sekelompok kata yang berfungsi
sebagai satu unit sintaksis), klausa (anak kalimat), dan kalimat. Proses penyemetan transkipsi
fonetis pada kata-kata ini dikenal dengan istilah text-to-phone-me atau graphemeto-phoneme.
Transkipsi fonetis dan informasi prosodi tersebut digabung dan membentuk representasi
linguistik simbolis yang merupakan output dari front-end. Bagian backend, yang sering
disebut sebagai synthesizer itu sendiri, kemudian mengonversi representasi linguistik
simbolis ini menjadi suara. Demikianlah gambaran alur kerja sebuah aplikasi speech
synthesizer atau text-to-speech.
2. Komando Suara

Pada sistem komando suara ,penggunaan teknologi speech recognition dapat


digunakan untuk memberi perintah pada alat-alat elektronik tertentu untuk melakukan sebuah
kerja sesuai yang disediakan. Contohnya adalah pada komputer(laptop) , kita dapat
memerintah komputer untuk membuka sebuah aplikasi (misalnya kalkulator) hanya dengan
mengucapkan “start calculator” dengan intonasi dan tata bahasa yang benar. Jika komando
suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan
komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai
kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan
komputer akan langsung beroperasi. Pada perangkat telepon genggam , ada juga yang
menyediakan fitur untuk memulai telepon ke sebuah nomor hanya dengan menyebutkan
nama yang sesuai dengan daftar kontak yang ada.

Alur Kerja

Cara kerja pada sistem komando suara ini , kurang lebih demikian :

Pertama-tama perangkat menangkap suara yang diberikan lalu data suara itu dibawa ke
speech recognizer untuk diidentifikasi perintah apa yang sudah diberikan oleh user. Setelah
suaranya dikenali , maka perintah yang tadi disebutkan akan di verifikasi dengan data yang
ada apakah perintah tersebut valid atau tidak. Kalau perintah itu valid, maka tugas akan
segera dilaksanaka , bila tidak maka komputer akan memberitahu kalau perintah yang
dikatakan tidak benar dan meminta user untuk memberi perintah lainnya.

Anda mungkin juga menyukai