Elizabeth Irenne Yuwono: Studi Format Audio dan Teks … ISSN: 2460-1306
12 JUISI, Vol. 01, No. 01, Februari 2015
isu penelitian pada speech to text sebagai hasil studi nol dari positif ke negatif dalam satuan waktu dan
penelitian ini. menyimpannya dalam bentuk informasi sinyal spektral.
Sinyal spektral adalah distribusi frekuensi dalam sinyal,
analisa spektral berhubungan dengan pendengaran dan
II. SINYAL AUDIO persepsi manusia untuk sinyal audio. Terdapat relasi antara
Perubahan pada tekanan udara yang diterima oleh ZCR dan frekuensi dasar (f0); frekuensi dasar adalah
pendengaran kita adalah gelombang suara. Sinyal audio frekuensi terendah dalam gelombang sinyal audio secara
adalah gelombang suara dalam arah longitudinal. periodik. Dalam modul speech to text, frekuensi dasar
Frekuensi untuk setiap sinyal audio berbeda-beda dan digunakan sebagai nilai basis untuk menentukan yang
merepresentasikan seberapa cepat perubahan sinyal audio mana yang merupakan frekuensi sinyal ucapan. Lokasi
per detik. Frekuensi gelombang suara yang dapat diterima forman hanya terdapat dalam sinyal ucapan, sehingga fitur
oleh indra pendengaran manusia adalah antara 20 Hz ini dapat digunakan untuk deteksi sinyal ucapan.
sampai 20 kHz. Gelombang suara pada area frekuensi ini Karakteristik persepsi adalah karakteristik relative
yang dianggap sebagai sinyal audio (Umapathy, 2010). yang diperoleh dari informasi sinyal audio yaitu
Area intensitas pendengaran sinyal audio adalah 120 dB karakteristik fisik. Nada memiliki relasi dengan frekuensi
yang merepresentasikan area. Pemrosesan sinyal Terdapat dasar, perbedaan antara kedua fitur ini adalah; frekuensi
properti lain dari sinyal audio selain frekuensi, yaitu dasar merupakan kuantitas numerik yang absolut
periode dan amplitudo. Periode adalah waktu yang sementara nada merupakan kuantitas relatif. Bingkai suara
dibutuhkan selam satu siklus gelombang dalam satuan berasal dari nada atau frekuensi dasar. Jika suatu sinyal
sekon. Amplitudo adalah ukuran volum sinyal pada waktu ucapan memiliki energi namun tidak terdeteksi nada pada
tertentu. tingkat nada normal maka sinyal tersebut dianggap
(Gerhard, 2003) Sinyal audio dapat diklasifikasikan memiliki bingkai tanpa suara. Bingkai suara cenderung
menjadi dua jenis, yaitu suara yang terdengar oleh manusia harmonis dan memiliki centroid spektral lebih rendah
dan suara yang tidak dapat didengarkan. Suara yang dapat dibandingkan bingkai tanpa suara. Warna nada membantu
didengarkan terdiri dari: suara alami, buatan, ucapan, membedakan dua suara atau instrument yang memiliki
musik, dan kebisingan. Suara alami adalah semua suara tingkat kemiripan tinggi dengan mengkombinasikan
yang berasal dari alam dan tidak menerima modifikasi informasi dari nada, intensitas, dan sebagainya. Ritme
apapun. Suara buatan adalah suara yang dibuat atau merepresentasikan tempo dari situasi sama yang berulang
dimodifikasi oleh manusia kecuali ucapan dan musik. dalam sinyal audio. Fitur ini digunakan untuk deteksi
Musik adalah suara yang berasal dari instrument musik pengulangan suara.
dengan melodi yang harmonis. Kebisingan adalah sinyal Jenis karakteristik sinyal audio dapat dibagi menjadi
acak yang dapat diklasifikasikan berdasarkan distribusi dua jenis (Rao, 2007), yaitu: karakteristik sementara dan
energinya pada spektrum sinyal. Khusus untuk kebisingan, spektral. Karakteristik sementara termasuk durasi dan
suatu sinyal audio dapat dianggap sebagai kebisingan dari modulasi amplitudo sinyal termasuk naik turun bentuk
beberapa aspek. Untuk identifikasi sinyal audio pada gelombang. Karakteristik spektral berhubungan dengan
modul speech to text, sinyal kebisingan adalah sinyal selain komponen frekuensi dan jumlahnya.
sinyal ucapan manusia, termasuk suara alami, buatan, dan Gelombang audio dapat bersifat periodik dan
musik. aperiodik. Gelombang yang periodik memiliki nada
kompleks yang terdiri dari sebuah frekuensi fundamental
dan rangkaian tingkatan nada atau beberapa frekuensi
fundamental. Warna nada dipengaruhi oleh amplitudo dan
III. KARAKTERISTIK SINYAL AUDIO
fase frekuensi. Sementara gelombang aperiodik terdiri dari
Terdapat beberapa karakteristik pada sinyal audio nada-nada yang tidak harmonis dan memiliki frekuensi
yang dapat digunakan untuk menentukan perbedaan antara sinyal kebisingan.
sinyal ucapan dan sinyal lain yang dianggap sebagai
kebisingan. Karakteristik ini dikategorikan menjadi dua,
yaitu karakteristik fisik dan persepsi. Karakteristik fisik
IV. SINYAL AUDIO UCAPAN
meliputi energi, zero-crossing rate, fitur spektral, frekuensi
dasar, lokasi forman, fitur berbasis waktu, dan modulasi Sinyal ucapan adalah sinyal audio yang berasal dari
(Gerhard, 2003). Karakteristik persepsi meliputi nada dan sistem pengucapan manusia dengan tujuan untuk
prosodi, bingkai suara dan tanpa suara, warna nada, dan komunikasi. Berbeda dengan sinyal audio lainnya, sinyal
ritme. ucapan diasumsikan sebagai kumpulan phone. Sementara
Karakteristik fisik adalah fitur-fitur unik dalam sinyal sinyal musik sebagai evolusi dari pola nada-nada. Terdapat
audio yang diperoleh dari perhitungan langsung dari dua jenis sinyal ucapan, yaitu sinyal ucapan bersuara dan
amplitudo gelombang audio atau nilai spektral jangka tanpa suara. (Pollak, 2004) Sinyal ucapan bersuara berasal
pendek. Zero-crossing rate diterapkan untuk dari getaran pita suara, sementara ucapan tanpa suara
mengklasifikasikan suara perkusi. Zero-crossing rate memiliki sinyal bising seperti ‘s’, ‘sh’.
(ZCR) mengukur perubahan sinyal saat melalui frekuensi Frekuensi standar untuk sinyal ucapan manusia antara
ISSN: 2460-1306 Elizabeth Irenne Yuwono: Studi Format Audio dan Teks …
JUISI, Vol. 01, No. 01, Februari 2015 13
100 sampai 3000 Hz, sedangkan frekuensi sinyal audio Area ini tidak meliputi tingkat nada suara manusia saat
yang dapat diterima oleh pendengaran manusia antara 20 bernyanyi yaitu antara 80 sampai 1100 Hz. Batas frekuensi
sampai 20.000 Hz. yang telah diketahui ini digunakan sebagai tolak ukur saat
deteksi nada.
B. Zero-crossing Rate
Zero-crossing rate mengidentifikasi fluktuasi dalam
sinyal ucapan. Sinyal ucapan tanpa suara mengalami
pergerakan lebih cepat dibandingkan sinyal ucapan
bersuara, sehingga ZCR pada sinyal tanpa suara lebih
tinggi daripada sinyal bersuara.
Elizabeth Irenne Yuwono: Studi Format Audio dan Teks … ISSN: 2460-1306
14 JUISI, Vol. 01, No. 01, Februari 2015
untuk penggunaan pada sistem operasi Macintosh. LPCM nilai benar apabila kumpulan nilai tersebut (Fourier series)
menggunakan metode sandi modulasi kode pulsa linear dapat disusun menjadi sinyal audio yang sama lagi. Fungsi
untuk menyimpan sinyal audio digital. Dalam prinsip dasar yang digunakan untuk representasi sinusoid adalah
LPCM, gelombang audio direpresentasikan sebagai nilai fungsi sinus dan cosinus. Hasil dari Fourier transform
amplitudo yang di rekam dalam rangkaian waktu tertentu. adalah kumpulan domain frekuensi sinyal dalam jumlah
Modulasi kode pulsa adalah metode penyimpanan dan kecil. Terdapat empat jenis Fourier transform antara lain:
transmisi audio uncompressed digital. LPCM Fourier transform, Fourier series, Fourier transform diskrit,
menggunakan kuantisasi linear untuk merepresentasikan dan Fourier transform waktu diskrit. Perbedaan antara
nilai amplitude dalam skala linear. keempat jenis Fourier transform ditunjukkan pada tabel 1
(Smith, 1997). Fourier series adalah jumlah nilai fungsi
basis (sinus dan cosinus) frekuensi. Untuk pemrosesan
VII. PEMROSESAN SINYAL DIGITAL sinyal audio jenis Fourier transform yang digunakan adalah
Fourier transform diskrit. Fourier transform ini bekerja
Digital signal processing atau pemrosesan sinyal
sesuai periode waktu dan mengukur setiap siklus frekuensi
digital adalah proses perubahan, penyaringan, dan estimasi
𝑋𝑘 . 𝑒 𝑖2𝜋𝑘𝑛/𝑁 . . Dalam setiap siklus frekuensi, nilai, deviasi,
sinyal audio menjadi data binary. Untuk memperoleh nilai
dari setiap karakteristik sinyal audio diperlukan dan kecepatan rotasi diperhitungkan (Azad, n.d.). 𝑥𝑛
pemrosesan sinyal digital. Modul speech to text menerima adalah nilai sinyal pada waktu-n hasil penjumlahan seluruh
data audio dalam bentuk data binari untuk dapat melakukan siklus sebanyak N periode.
identifikasi ucapan. Terdapat beberapa proses sinyal digital
1
yang sering digunakan untuk tujuan identifikasi ucapan, 𝑥𝑛 = ∑𝑁−1
𝑘=0 𝑋𝑘 . 𝑒
𝑖2𝜋𝑘𝑛/𝑁
(4)
𝑁
antara lain:
TABEL I
A. Sampling JENIS-JENIS FOURIER TRANSFORM
Terdapat dua jenis representasi sinyal audio yaitu: sinyal
kontinu dan diskrit. Sejak awal sinyal audio merupakan Jenis Transform Perbedaan
sinyal kontinu yang cukup kompleks untuk sistem, oleh Fourier transform Sinyal kontinu dan periode tidak
beraturan
karena itu sampling berfungsi untuk menyederhanakan
Fourier series Sinyal kontinu dan periode beraturan
sinyal tersebut menjadi sinyal diskrit. Sinyal diskrit
Fourier transform diskrit Sinyal diskrit dan periode beraturan
menyimpan rangkaian sinyal sampel dalam interval waktu
Fourier transform waktu Sinyal diskrit dan periode tidak
tertentu. Sampel adalah jumlah periode gelombang pada beraturan
diskrit
waktu tertentu.
Terdapat dua kondisi untuk menentukan interval sampel
berdasarkan teorema sampling (Orfanidis, 2010), yaitu: C. Kuantisasi
1) Sinyal x(t) harus tersimpan dalam bentuk berkas Kuantisasi adalah pemetaan kumpulan nilai masukan
sinyal, spektrum frekuensinya harus kurang dari atau dalam jumlah besar menjadi kumpulan kecil. Jika sampling
sama dengan frekuensi maksimal fmax. merupakan digitalisasi domain frekuensi, maka kuantisasi
2) Rating sampel fs minimal dua kali dari frekuensi adalah digitalisasi area frekuensi.
maksimal.
D. Sistem Waktu Diskrit
𝒇𝒔 ≥ 𝟐. 𝒇𝒎𝒂𝒙 (3) Sistem waktu diskrit adalah prose penambahan
rangkaian masukan x[n] menjadi rangkaian luaran y[n]
Rating sampel minimal disebut rating Nyquist, sedangkan dengan properti tambahan sesuai kebutuhan.
kuantitas fs/2 disebut sebagai frekuensi Nyquist. Batas
interval frekuensi Nyquist adalah . Frekuensi maksimal fmax E. Digital Filter
sinyal ucapan adalah 4 kHz dengan rating Nyquist 8 kHz, Digital filter mengurangi atau meningkatkan aspek
sementara secara umum sinyal audio memiliki frekuensi tertentu dalam sinyal waktu diskrit. Terdapat dua kategori
maksimal 20 kHz dan rating Nyquist 40 kHz. digital filter dalam pemrosesan sinyal yaitu: representasi
domain waktu dan domain frekuensi. Kategori domain
B. Fourier Transform waktu dalam digital filter adalah filtering sinyal
Fourier transform melakukan analisa spektral pada berdasarkan koefisien formula perbedaan dan respon
sinyal audio. Fourier menyederhanakan domain frekuensi impuls. Sementara kategori domain frekuensi adalah
pada sinyal audio dengan menyimpan informasi filtering sinyal berdasarkan fungsi transfer dan respon
gelombang sebagai jumlah fungsi sinusoid dari frekuensi- frekuensi.
frekuensi berbeda. Fungsi sinusoid merupakan hasil
pemecahan sinyal berdasarkan domain frekuensinya. Nilai 1) Koefisien Formula Perbedaan
fungsi sinusoid merepresentasikan nilai karakteristik sinyal Formula perbedaan adalah formula matematika untuk
audio tersebut. Suatu fungsi sinusoid dikatakan memiliki menghitung sampel luaran dalam digital filter
ISSN: 2460-1306 Elizabeth Irenne Yuwono: Studi Format Audio dan Teks …
JUISI, Vol. 01, No. 01, Februari 2015 15
2) Respon Impuls x(n) adalah sinyal audio sumber, sementara v(n) adalah
Impuls adalah sinyal masukan yang menerima respon sinyal kebisingan yang ingin disaring, s(n) adalah hasil
dari digital filter. Impuls didefinisikan oleh: sinyal yang telah mengalami proses filtering. Terdapat
beberapa macam sinyal kebisingan, antara lain:
0, 𝑛 ≠ 0
𝛿(𝑛) = {
1, 𝑛 = 0
(6) 1) Sinyal kebisingan putih, adalah sinyal latar belakang
yang diperoleh dari proses pengukuran pada
Sementara respon dari impuls tersebut didefinisikan umumnya.
oleh: 2) Sinyal gangguan periodikal, adalah sinyal frekuensi
yang selalu muncul selalu periodikal, contoh: 60 Hz
power-frequency pickup.
𝑦(𝑛) = ∑∞
𝑚=−∞ ℎ(𝑚)𝑥(𝑛 − 𝑚) (7) 3) Sinyal kebisingan dengan frekuensi rendah, contoh:
kekacauan pada sinyal radar.
Terdapat dua jenis digital filter yang menggunakan 4) Lain-lain, sinyal kebisingan yang termasuk kategori
respon impuls yaitu: FIR (Finite Impulse Response) ini tidak memiliki kriteria yang spesifik, suatu sinyal
dan IIR (Infinite Impulse Response) filter. Dalam IIR audio termasuk sinyal kebisingan berdasarkan
filter, respon impuls memiliki durasi terbatas kebutuhannya. Pada modul speech to text sinyal
sementara FIR filter tidak terbatas atau bekerja secara kebisingan adalah semua sinyal audio selain sinyal
rekursif. ucapan.
4) Respon Frekuensi
Respon frekuensi adalah fungsi transfer yang berasal x(n) y(n)
dari persamaan 6. Fungsi ini dievaluasi dalam unit
lingkaran sebagai berikut:
--> H(z) -->
s(n) + v(n) ys(n) + yv(n)
𝐻(𝑒 𝑗𝑤̂ ) = ∑𝑀
𝑘=0 𝑏𝑘 𝑒
−𝑗𝑤
̂𝑘
(9)
Elizabeth Irenne Yuwono: Studi Format Audio dan Teks … ISSN: 2460-1306
16 JUISI, Vol. 01, No. 01, Februari 2015
Penyaringan kebisingan dan optimalisasi sinyal dapat CIC dan FIR filter dapat diintegrasikan membentuk
diformulasikan dalam bentuk rasio sinyal ke noise. desimator dan interpolator dua langkah. Gambar 3
Minimalisasi NRR sama dengan maksimalisasi rasio sinyal menunjukkan bagan proses desimator dua langkah antara
ke noise (SNR) pada hasil filter 𝐻(𝜔). CIC dan FIR filter. Gambar 3a adalah implementasi alur
CIC dan gambar 3b adalah langkah penyetaraan satu tahap.
B. Pemerataan Sinyal (Signal Averaging) Sementara gambar 4 menunjukkan bagan proses
Pemerataan sinyal adalah proses meningkatkan rasio interpolasi yang terdiri dari dua tahap. Gambar 4a
sinyal ke noise (SNR). Pada proses ini noise atau menunjukkan proses implementasi alur CIC dan gambar 4b
kebisingan pada sinyal tidak dihilangkan namun hanya menunjukkan penyetaraan satu tahap. Perbedaan antar
dimanipulasi melalui pemerataan sinyal sehingga SNR proses desimalisasi dan interpolasi pada CIC dan FIR filter
sinyal lebih tinggi. Proses ini termasuk dalam konversi adalah pada alur prosesnya. Sama seperti pada CIC standar,
rating sampel untuk memperoleh sinyal diskrit dengan alur proses interpolasi terbalik dengan alur proses
SNR lebih tinggi. Pemerataan sinyal melalui interpolasi desimalisasi pada tahap pertama filtering.
dan desimalisasi menggunakan finite impulse response
(FIR) filter disebut dengan cascaded integrator-comb
(CIC) filter. CIC filter terdiri dari satu atau lebih pasangan
integrator dan comb filter. Comb filter membuat versi
sinyal berbeda dengan menambahkan jeda, respon
frekuensinya menyerupai rangkaian gerigi seperti sisir.
Terdapat dua kondisi dalam pemerataan sinyal
menggunakan CIC filter, yaitu: desimalisasi dan
interpolasi (Miller, 2010). Untuk kondisi desimalisasi,
sinyal masuk melalui alur integrator kemudian mengalami
downsampling, proses ini dilakukan untuk setiap area Gambar 3. Bagan proses desimalisasi pada pemerataan sinyal
menggunakan CIC dan FIR filter
comb sinyal. Dalam desimalisasi jumlah area comb sama
dengan jumlah integrator. Desimator CIC
diimplementasikan sebagai alur dari semua integrator,
faktor-N downsampler, dan terusan dari pembeda setiap
segmen comb. Untuk kondisi interpolasi, sinyal diproses
dengan urutan sebaliknya dan downsampling diganti
dengan upsampling (zero-stuffer). Pada interpolasi faktor-
N upsampler diposisikan sebelum integrator dan setelah
pembeda comb.
Terdapat dua parameter dalam comb filter, yaitu:
passband droop dan faktor selektivitas. Passband droop Gambar 4. Bagan proses interpolasi pada pemerataan sinyal
(𝑑𝐶𝐾 ) merupakan aturan maksimal untuk batas bandwidth menggunakan CIC dan FIR filter
yang dibandingkan dengan low pass filter ideal. Faktor
selektivitas (𝜙𝐶𝐾 ) adalah rasio antara nilai respon tingkat C. Savitzly-Golay Smoothing Filter
filter yang diperoleh pada frekuensi batas passband 𝐹𝑚 dan Smoothing filter ini berbasis pada publikasi mengenai
pada frekuensi batas bawah aliasing band pertama tabel koefisien konvolusi untuk ragam polynomial dan
𝐹 kelompok data oleh Abraham Savitzky dan Marcel J.E.
( 𝑥⁄𝑁 − 𝐹 ). Passband droop dan faktor selektivitas
𝑚 Golay pada 1964. Savitzky-Golay smoothing filter adalah
untuk frekuensi digital diperoleh dari persamaan berikut: filter digital yang berfungsi meningkatkan SNR (signal to
ISSN: 2460-1306 Elizabeth Irenne Yuwono: Studi Format Audio dan Teks …
JUISI, Vol. 01, No. 01, Februari 2015 17
noise ratio) tanpa merubah sinyal itu sendiri. Proses ini Model atau algoritma yang paling sering digunakan
disebut penghalusan sinyal. berkaitan dengan linguistik speech to text antara lain: part
Savitzky-Golay smoothing filter melakukan konvolusi of speech tagging, disambiguasi makna kata, parsing
dengan menyesuaikan kelompok poin data yang sejajar probabilitas, dan interpretasi tutur kata. Part of speech
dengan polynomial derajat rendah menggunakan metode tagging menentukan apakah sebuah kata termasuk kata
linear least square. Metode ini digunakan ketika poin-poin benda, kata kerja, atau yang lain. Disambiguasi makna kata
data terpisah dalam jarak yang sama terdeteksi. Persamaan menyelesaikan ambiguitas makna kata. Parsing
least square menghasilkan kelompok koefisien konvolusi. probabilitas menentukan apakah dua ucapan yang mirip
Koefisien-koefisien ini dapat diimplementasikan pada termasuk entitas kata yang sama. Interpretasi tutur kata
semua kelompok data untuk memperoleh estimasi sinyal menentukan apakah sebuah kalimat adalah pernyataan,
yang telah dihaluskan pada setiap titik tengah kelompok pertanyaan, atau perintah.
data. Terdapat dua format umum dalam fonologi komputasi,
yaitu: IPA (International Phonetic Alphabet) dan
ARPAbet. IPA dan ARPAbet sebagian besar
IX. PENGETAHUAN LINGUISTIK menggunakan karakter huruf latin sebagai simbol, namun
ARPAbet lebih memiliki huruf yang familiar karena
Pengetahuan linguistik dibutuhkan dalam modul
menggunakan simbol ASCII dibandingkan IPA.
speech to text sebagai sumber pemahaman sistem
mengenai pengucapan, tata bahasa, dan pengetahuan
X. FORMAT TEKS
linguistic lain. Terdapat enam kategori pengetahuan
linguistic (Reddy, 1976), yaitu: Dalam modul speech to text, luaran dari modul adalah
teks transkripsi dalam format teks sederhana tanpa
1) Fonologi diperlukan informasi ragam teks. Format karakter yang
Fonologi adalah ilmu pengucapan linguistik. Fonetik digunakan dalam teks transkripsi bergantung pada karakter
membuat model pengucapan kata dalam unit phone. bahasa percakapan dalam audio masukan.
Berdasarkan data dari Ethonolouge, dari 7.106 bahasa
2) Morfologi yang ada di dunia, 3.570 telah memiliki sistem penulisan.
Morfologi adalah studi identifikasi komponen penting Dari 3.570 bahasa ini sebagian besar menggunakan sistem
dalam sebuah kata. Morfologi menyimpan informasi penulisan yang sama. Sistem penulisan yang paling banyak
dari bentuk dan perilaku kata. digunakan oleh bahasa di dunia adalah sistem penulisan
alfabet. Tabel 2 menunjukkan daftar sistem penulisan yang
3) Sintaksis (ilmu kalimat) ada saat ini menurut Omniglot, Ensiklopedia Sistem
Sintaksis adalah studi relasi struktural antar kata. Penulisan dan Bahasa Dunia (Ager, 2015).
Sintaksis melakukan pengurutan dan pengelompokkan
kata-kata dalam sebuah kalimat. TABEL 2
DAFTAR SISTEM PENULISAN BAHASA DI DUNIA
4) Semantik
Sistem Penulisan Bahasa
Semantik adalah ilmu makna linguistik. Terdapat dua
Abjad / Alfabet
jenis semantik, yaitu semantik leksikal dan semantik Konsonan
Arab, Ibrani
komposisi. Semantik leksikal menentukan makna dari Alfabet Inggris, Indonesia, Afrika, Rusia
kata, sementara semantik komposisi mempelajari Alfabet Silabel /
makna komponen-komponen kata yang ada untuk Abugidas
Korea (Hangul), Hindi, Nepali
menentukan makna besar dari komponen-komponen Sistem Suku Kata Jepang (Hiragana)
tersebut. Semanto-fonetik Mandarin
Lain-lain Eropa lama, Rohonc Codex
5) Pragmatik (Hungaria)
Pragmatik menentukan bentuk formal dan informal
bahasa. A. Alfabet Konsonan
Sistem penulisan ini menganggap semua huruf harus
6) Konvensi wacana memiliki konsonan. Huruf konsonan dapat menjadi huruf
Wacana adalah ilmu linguistik mengenai unit yang independen, sementara huruf vocal ditemani satu atau lebih
lebih kompleks daripada kata, wacana dapat berupa huruf konsonan. Contoh bahasa yang menggunakan sistem
percakapan. Konvensi wacana memperbaiki struktur penulisan ini adalah bahasa Arab dan Ibrani. Gambar 5
kalimat agar sesuai dengan maksud pembicara. menunjukkan contoh penulisan alfabet konsonan pada
bahasa Arab.
Setiap kategori dapat diasumsikan sebagai solusi
ambiguitas dari kategori sebelumnya. Ambiguitas ini dapat B. Alfabet
diselesaikan menggunakan model atau algoritma tertentu. Sistem penulisan alfabet adalah sistem penulisan umum
Elizabeth Irenne Yuwono: Studi Format Audio dan Teks … ISSN: 2460-1306
18 JUISI, Vol. 01, No. 01, Februari 2015
yang biasa digunakan pada bahasa Indonesia, Inggris, dan Kapasitas enkripsi UTF-8 mampu meliputi hampir semua
bahasa lainnya. Pada sistem penulisan ini setiap huruf jenis karakter dalam berbagai macam bahasa.
vokal dan konsonan adalah independen.
XI. MODUL SPEECH TO TEXT
C. Alfabet Silabel (Abugidas)
Sistem penulisan alfabet silabel adalah sistem
Speech to text adalah bidang teknologi yang berfokus
penulisan dengan komponen utamanya adalah suku kata.
pada identifikasi ucapan manusia dalam bentuk teks
Setiap karakter tersusun dari 2 hingga 4 huruf membentuk
transkripsi. Speech to text dikembangkan dengan tujuan
satu suku kata. Contoh penulisan alfabet silabel pada
untuk memperoleh informasi dari audio, dan
bahasa Korea (Hangul) ditunjukkan pada gambar 6.
pengembangan sistem komputer pintar (kecedasan buatan)
yang mampu memahami bahasa manusia. Menurut
D. Sistem Suku Kata
Waibel, sistem speech to text dapat dibagi menjadi
Sistem suku kata adalah sistem penulisan fonetik yang
beberapa jenis berdasarkan tingkat kesulitan intrinsik dan
membaca setiap simbol sebagai satu suku kata. Gambar 7
dimensinya (Waibel, 1990):
adalah contoh penulisan sistem suku kata pada bahasa
Jepang (Hiragana).
A. Word Recognition-Isolated (WR)
E. Semanto-fonetik
Sistem WR adalah sistem speech to text dengan tipe
Sistem penulisan semanto-fonetik adalah sistem
masukan berupa ucapan kata-kata terisolasi. Setiap kata
penulisan yang membaca simbol sebagai suatu ucapan
diberi jeda saat diucapkan, sehingga penggunaannya
(vokal, konsonan, suku kata) dan masing-masing memiliki
terbatas. Ukuran kosakata WR berkisar antara 10 hingga
arti. Terdapat tiga jenis simbol semanto-fonetik, antara
300 kata.
lain: pictogram, ideogram, dan karakter majemuk.
Pictogram adalah simbol yang merepresentasikan benda
B. Connected Speech Recognition-restricted (CSR)
sebenarnya. Simbol jenis ini biasa digunakan pada
Sistem CSR adalah sistem speech to text dengan tipe
Hieroglyphic Mesir kuno. Ideogram adalah simbol yang
masukan berupa ucapan kata bersambung tanpa jeda.
merepresentasikan ide abstrak, simbol jenis ini biasa
Sistem jenis ini dapat menyimpan kosakata antara 30
digunakan untuk penomoran karakter Mandarin. Simbol
hingga 500 kata namun hanya dapat menerima bahasa
jenis karakter majemuk banyak digunakan pada karakter
perintah terbatas, bukan semua bahasa. Saat perekaman
Mandarin. Penulisan karakter majemuk merepresentasikan
audio masukan, lingkungan perekaman harus hening
makna dan bunyi pengucapan karakter tersebut. Namun
dengan tingkat kebisingan rendah serta ucapan pembicara
terkadang beberapa simbol hanya digunakan untuk bunyi
harus jelas. Tingkat akurasi sistem CSR dipengaruhi oleh
pengucapannya tanpa peduli maknanya.
kejelasan audio masukan.
Enkripsi teks sederhana dapat menggunakan
beberapa unit kode, antara lain: ASCII, UTF-8, EBCDIC,
C. Speech Understanding-restricted (SU)
UTF-16, dan UTF-32. ASCII (American Standard Code
Sistem SU merupakan jenis sistem speech to text yang
for Information Interchange) merupakan enkripsi karakter
bertujuan untuk memahami ucapan masukan. Oleh karena
berdasarkan alfabet untuk sistem penulisan bahasa Inggris.
itu sistem SU dapat menerima ucapan kata bersambung dan
ASCII hanya menyimpan karakter huruf latin dan tidak
dapat digunakan secara lebih bebas dibandingkan sistem
bisa digunakan untuk bahasa dengan sistem penulisan
WR dan CSR. Bahasa yang dapat dipahami oleh sistem SU
berbeda dengan bahasa Inggris, seperti: bahasa Arab,
adalah bahasa sesuai data pengetahuan linguistik (misal:
Mandarin, dan Eropa. EBCDIC (Extended Binary Coded
bahasa Inggris) namun dengan tata bahasa terbatas.
Decimal Interchange Code) adalah sistem penulisan
Keterbatasan tata bahasa SU dipengaruhi oleh kapasitas
karakter 8-bit yang menggunakan basis sistem operasi dan
penyimpanan kosa kata sistem SU yaitu antara 100 hingga
perangkat IBM. UTF-8, UTF-16, UTF-32 termasuk dalam
2000 kata. Namun pada SU, sistem tidak lagi bergantung
sistem Unicode standar yang dikembangkan menggunakan
sepenuhnya pada siapa pembicaranya namun sistem sudah
basis World Wide Web. Secara umum sistem Unicode
lebih pintar untuk dapat memahami ucapan berbagai
didesain untuk penulisan karakter huruf latin, namun
pembicara sebagai satu kata yang sama. Tingkat
seluruh sistem Unicode memiliki referensi karakter untuk
pemahaman sistem speech to text bergantung pada sumber
simbol selain huruf latin seperti karakter Hangul (bahasa
pengetahuan linguistik, semakin lengkap pengetahuan
Korea), Hiragana (bahasa Jepang), Arab, dan sebagainya.
linguistik sistem maka tingkat pemahaman SU akan
Perbedaan antara ketiga jenis sistem Unicode tersebut
semakin kompleks.
adalah pada jumlah karakter yang digunakan saat
encoding, yaitu transformasi 8-bit, 16-bit, dan 32-bit. UTF-
D. Dictation Machine-restricted (DM)
8 merupakan sistem penulisan yang paling banyak
Dictation machine adalah sistem speech to text yang
digunakan saat ini dibandingkan unit kode lainnya. UTF-8
merekam ucapan dan menyimpan hasil transkripsi teksnya
didesain untuk mengurangi kompleksitas pada format
untuk penggunaan selanjutnya. DM telah banyak
ASCII dalam pengaturan karakter bukan huruf latin.
ISSN: 2460-1306 Elizabeth Irenne Yuwono: Studi Format Audio dan Teks …
JUISI, Vol. 01, No. 01, Februari 2015 19
digunakan untuk keperluan personal maupun legal dan Setiap bahasa memiliki tata bahasa yang berbeda, tata
medis. DM memerlukan kosakata yang lebih besar bahasa ini diterapkan sebagai pengetahuan linguistik.
daripada sistem speech to text lainnya yaitu antara 1000
hingga 10.000 kata dan pengguna DM harus merekam 4) Ketergantungan sistem pada karakter suara pengguna
suaranya dengan jelas dalam lingkungan hening. Tingkat Modul speech to text memiliki dua jenis sistem
pemahaman DM bergantung pada kompleksitas identifikasi, yaitu ketergantungan pada suara pengguna
pengetahuan linguistiknya dan kejelasan audio masukan. dan sistem independen. Sistem yang bergantung pada
suara pengguna memiliki keterbatasan identifikasi
E. Unrestricted Speech Understanding (USU) karena bersifat statis. Akurasi terbaik dapat diperoleh
USU adalah sistem speech to text yang membutuhkan jika karakter suara pengguna sama atau mendekati data
kapasitas kosakata tidak terbatas untuk dapat menerima pelatihan. Sistem independen bersifat dinamis, setiap
masukan ucapan kata bersambung dengan menggunakan sistem mengidentifikasi suara baru, suara dimasukan ke
pengetahuan linguistik untuk pemahaman teks transkripsi. data pelatihan untuk meningkatkan akurasi pada
identifikasi selanjutnya.
F. Unrestricted Connected Speech Recognition
Unrestricted Connected SR adalah sistem speech to 5) Ambiguitas akustik
text yang memiliki kapasitas kosakata dan jenis masukan Dalam beberapa kosakata bahasa, satu kata yang sama
sama dengan USU namun sistem tidak mengasumsikan dapat memiliki arti yang berbeda tergantung pada
jenis informasi apa yang disampaikan oleh pembicara konteksnya pada kalimat. Ambiguitas ini diselesaikan
sehingga pemahaman sistem lebih kompleks dari segi melalui aspek semantik pada pengetahuan linguistik.
pengetahuan linguistik.
6) Kebisingan lingkungan
Dari seluruh jenis sistem speech to text tersebut, Untuk dapat memperoleh akurasi tinggi, sinyal ucapan
akurasi sistem bergantung dari jenis informasi yang ingin masukan harus memiliki level kebisingan yang rendah.
diperoleh. Jenis informasi yang ingin diperoleh Namun tidak setiap masukan memiliki level kebisingan
menggunakan speech to text akan mempengaruhi waktu yang rendah, oleh karena itu bidang teknologi noise
respon sistem dalam memproses audio masukan dan filter dikembangkan untuk mengurangi level
relasinya dengan pengetahuan linguistik. Akurasi dan kebisingan audio.
waktu respon sistem dapat diatur, semakin tinggi akurasi
sistem maka waktu respon semakin lama, hal ini juga
berlaku sebaliknya. XII. ISU PENELITIAN
Menurut Ethonologue, salah satu sumber tata bahasa
Berdasarkan studi ini terdapat beberapa isu penelitian
dunia terbaik, pada tahun 2014 terdapat 7,106 bahasa
yang perlu dipertimbangkan untuk penelitian selanjutnya
dengan 6,2 milyar pembicara di seluruh dunia (Lewis,
terkait topik ini. Sinyal audio memiliki berbagai jenis
2014). Jumlah ini menunjukkan betapa kompleks dan
konten tergantung lingkungan sumbernya. Beberapa sinyal
luasnya potensi bidang speech to text. Namun terdapat
audio dari sumber berbeda dapat memiliki nilai frekuensi
beberapa isu dalam pengembangan speech to text (Waibel,
yang sama, hal ini perlu diperhatikan dalam pengembangan
1990), antara lain:
modul speech to text agar modul mampu mengidentifikasi
sumber audio sebenarnya.
1) Ucapan bersambung, terisolasi
Beberapa isu penting dalam speech to text yang telah
Ucapan manusia memiliki berbagai keragaman
disebutkan pada Bab 10 menunjukkan bahwa akurasi hasil
meliputi gaya bahasa dan dialek, sebagian berbicara
speech to text dipengaruhi oleh keterbatasan pemrosesan
secara berkesinambungan tanpa jeda, sebagian
audio pada format tertentu. Selain format audio,
berbicara dengan jeda untuk setiap kata. Karena
kompleksitas karakteristik ucapan manusia juga
perbedaan eksistensi jeda ini, maka modul speech to
merupakan aspek penting yang harus diperhitungkan
text harus mampu membedakan ucapan yang berbeda
dalam pengembangan modul speech to text.
namun merupakan kata yang sama.
Isu penelitian speech to text pada aspek format teks
berasal dari pemilihan format karakter teks untuk luaran
2) Ukuran kosakata
modul. Modul speech to text harus dapat mencakup ragam
Pada Desember 2010, sebuah studi oleh Harvard dan
karakter huruf dalam berbagai bahasa yang ada di dunia.
Google menemukan bahwa bahasa Inggris memiliki
Isu-isu penelitian yang diperoleh dari penelitian ini
1.022.000 kata dan terus bertambah dengan rating
menunjukkan luasnya potensi penelitian dalam bidang
8.500 kata per tahun (Injeeli, 2013). Berdasarkan data
speech to text. Dalam hal ini penelitian selanjutnya tidak
ini, modul speech to text harus mampu menyimpan
hanya meliputi bidang speech to text saja, namun juga
setidaknya satu juta kata untuk setiap bahasa agar dapat
bidang kecerdasan buatan, pemrosesan sinyal digital,
mengidentifikasi ucapan secara akurat.
matematika dan teori probabilitas, serta pengetahuan
linguistik.
3) Keterbatasan tata bahasa
Elizabeth Irenne Yuwono: Studi Format Audio dan Teks … ISSN: 2460-1306
20 JUISI, Vol. 01, No. 01, Februari 2015
DAFTAR PUSTAKA
ISSN: 2460-1306 Elizabeth Irenne Yuwono: Studi Format Audio dan Teks …