Bab 3 R.2.1

BAB III
METODOLOGI PENELITIAN
3.1 Spesifikasi Perangkat Keras dan Perangkat Lunak

Alat yang digunakan dalam penelitian ini berupa perangkat lunak dan
perangkat keras. Adapaun alat yang digunakan adalah sebagai berikut:
3.1.1 Perangkat keras
Pada dasarnya, perangkat keras adalah komponen komputer yang dapat
dilihat secara langsung atau berbentuk nyata dan berfungsi untuk mendukung
proses komputerisasi yang ada. Dalam penelitian ini, perangkat keras yang
digunakan yaitu:
1. Prosessor Intel(R) Core i5-240M 2.4 GHz
2. RAM DDR3 6 GB
3. Hard Disk Drive 550 GB
4. Mikrofon
5. Speaker
3.1.2 Perangkat lunak
Berbeda dengan perangkat keras, perangkat lunak adalah program
komputer yang berfungsi sebagai sarana interaksi antara pengguna dan perangkat
keras. Adapun perangkat lunak yang digunakan adalah sebagai berikut:
1. Sistem operasi Ubuntu Desktop versi 17.04 64-bit
Sistem operasi adalah perangkat lunak sistem yang mengelola perangkat
keras komputer dan sumber daya perangkat lunak dan menyediakan layanan
umum unutk program komputer. Tanpa sistem operasi, aplikasi tidak dapat
digunakan. Sistem operasi Ubuntu Desktop akan digunakan sebagai media untuk
menjalankan aplikasi Virtual Box dan pengembangan sistem.
2. Virtual Box versi 5.2.12 r122591
Virtual Box adalah perangkat lunak untuk mensimulasikan suatu sistem
operasi (guest OS) yang dijalankan pada suatu sistem operasi (host OS). Pada
penelitian ini, server disimulasikan menggunakan Virtual Box.
36
37
3. Sistem operasi Ubuntu Server versi 16.04 64-bit

Sistem operasi Ubuntu Server merupakan salah satu distro sistem operasi
berbasis Linux. Sistem Operasi Ubuntu Server digunakan sebagai sarana untuk
tahap pelatihan model Hidden Markov dan tahap implementasi tampilan sistem
yang berbasis web. Sebagian besar perangkat lunak dan library yang dipakai
dalam penelitian ini memerlukan lingkungan (environment) berbasis UNIX.
4. OpenSSH versi 7.2p2
OpenSSH merupakan sebuah perangkat lunak yang digunakan untuk
berkomunikasi dengan suatu komputer yang terletak berjauhan dengan sebuah
protol jaringan yaitu SSH (Secure Shell). Protokol SSH biasanya menggunakan
port 22 dan menggunakan algortima RSA untuk mengenkripsi jalur (tunnel)
dalam jaringan. OpenSSH berfungsi untuk memudahkan tahap pengembangan
dan implementasi sistem dimana pengembangan tidak harus dilakukan secara
langsung dengan suatu komputer namun bisa diakses dengan menggunakan
komputer lain. Pada penelitian ini, komputer yang diakses berupa sistem operasi
Ubuntu Server yang dijalankan secara virtual dengan menggunakan Virtual Box.
5. HMM Tool Kit (HTK) versi 3.4.1
HTK merupakan perangkat lunak yang umumnya diimplementasi pada
beberapa penelitian mengenai pengenalan ucapan (speech recognition). HTK
digunakan untuk membangun dan memanipulasi model Hidden Markov. Instalasi
HTK terdiri dari HTK dan HDCODE yang diinstal secara terpisah.
6. Patch HTS versi 2.3
Patch HTS adalah sebuah patch untuk mengubah beberapa komponen dari
toolkit HTK sehingga HTK dapat digunakan pada tahap pelatihan model Hidden
Markov dengan toolkit HTS. Patch HTS versi 2.3 memerlukan kompiler bahasa
pemrograman C yaitu gcc dan g++ dengan versi 4.6. Versi kompiler yang berbeda
dalam menyebabkan beberapa bug yang disebabkan kompatibilitas setiap
kompiler yang berbeda.
7. Festival TTS versi 2.4
Festival TTS adalah sebuah perangkat lunak text-to-speech yang bersifat
open source. Selain text-to-speech, Festival TTS dapat digunakan sebuah
framework untuk mengembangkan text-to-speech dalam bahasa lain. Pada
38
penelitian ini, Festival TTS digunakan untuk mengolah, menganalisa teks dan
mengubah teks menjadi informasi prosodi berupa file utterance. File utterance
akan dipakai pada saat tahap pra proses korpus suara dan pada tahap sintesa.
Instalasi Festival TTS memerlukan Speech_tools Endiburgh.
8. Speech Signal Processing Toolkit (SPTK) versi 3.1
SPTK digunakan untuk menganalisa gelombang suara dan mengektraksi
parameter suara yaitu parameter spektral dan eksitasi. SPTK digunakan pada saat
tahap pelatihan HMM.
9. Speech_tools Endiburgh versi 2.1
Speech tools Endiburgh merupakan sekumpulan library untuk mengolah
gelombang suara atau bunyi. Speech tools digunakan oleh program Festival TTS
dan festvox untuk memproses sinyal ucapan yaitu salah satunya pelabelan
otomatis menggunakan festvox dengan metode Automatic Speech Recognition.
10. HTS_engine versi 1.10
HTS_engine merupakan salah satu perangkat lunak untuk mengubah label
kontekstual HTS menjadi gelombang suara. Selain label kontekstual, HTS_engine
memerlukan model HMM hasil tahap pelatihan. Pada penelitian ini, salah satu file
model HMM yang digunakan adalah file dengan format htsvoice.
11. Festvox versi 2.8
Festvox digunakan untuk menghasilkan file utterance dari rekaman suara
dan teks kalimat. File utterance yang dihasilkan memiliki informasi mengenai
durasi yang sesuai dengan rekaman suara. File utterance ini akan digunakan pada
tahap pelatihan HMM. Festvox memerlukan speech_tools Edinburgh untuk
mengolah gelombang suara.
12. Sound eXchange (SOX) versi 14.4.1
SOX merupakan sebuah perangkat lunak pemrosesan berbasis baris
perintah untuk pemrosesan audio. Sox digunakan pada penelitian ini untuk
memanipulasi atau mengkonversi file rekaman menjadi beberapa format lain yaitu
RAW, WAV dan AIFF.
13. AWK versi 4.1.3
AWK merupakan salah satu bahasa pemrograman yang umum digunakan
untuk mengolah dan memanipulasi data teks pada lingkungan sistem UNIX. Awk
39
pada penilitian ini digunakan untuk membantu dalam mengkonversi bentuk file
utterance menjadi label kontekstual sesuai dengan aturan kontekstual.
14. Wavesurfer
Wavesurfer merupakan sebuah perangkat lunak yang dapat menampilkan
representasi bentuk gelombang suara dari file rekaman suara. Wavesurfer
digunakan untuk melabel fonem pada file rekaman suara secara manual.
15. Python 3.6.3
Python adalah bahasa pemrograman tingkat tinggi yang ditujukan untuk
tujuan umum (general purpose). Python pada penelitian ini digunakan untuk
mengolah teks inputan pengguna sebelum diubah menjadi file utterance oleh
Festival TTS.
16. Sublime Text Build 3143
Sublime Text adalah sebuah perangkat lunak untuk mengolah dokumen
terutama teks atau text editor. Perangkat lunak berfungsi untuk mempermudah
tahap implementasi sistem yaitu mengubah perancangan sistem yang berupa
diagram alir menjadi instruksi-instruksi dalam bahasa pemrograman.
17. PHP 7.1
PHP merupakan bahasa pemrograman berbasis server-side yaitu kumpulan
instruksi akan dieksekusi di server. PHP digunakan untuk mengolah inputan
pengguna dari halaman web dan memberikan output kepada pengguna.
18. Google Chrome
Google Chrome sebagai salah satu browser yang digunakan untuk
menampilkan web sintesa yang dibangun.
19. Apache
Apache merupakan sebuah perangkat lunak yang memiliki peran sebagai
server dan berbasis web. Apache digunakan untuk menjalankan situs web.
Protokol yang umum digunakan adalah HTTP.
20. Bash Linux
Bash adalah sebuah Unix shell yang dapat membaca dan menjalankan
perintah atau instruksi dari sebuah file. Bash pada penelitian ini digunakan untuk
menjalankan beberapa script yang ada pada festvox dan pada tahap pelatihan
HMM.
40
41
3.2 Metode Penelitian

Metode penelitian merupakan beberapa tahapan yang dirancang dan
dijadikan sebagai panduan dalam melakukan sebuah penelitian. Metode penelitian
yang dilakukan digambarkan pada diagram alir penelitian pada gambar 3.1.
Gambar 3.1 Diagram Alir penelitian
3.2.1 Pengumpulan data

Pengumpulan data dilakukan dengan menggunakan metode wawancara
Data yang digunakan berupa korpus kalimat dan rekaman suara. Jumlah kalimat
yang digunakan pada penelitian adalah 300 kalimat dengan jenis kalimat berupa
kalimat pernyataan / deklaratif. Total duarsi korpus rekaman adalah 23 menit 18
detik. Daftar kalimat yang dikumpulkan dapat dilihat pada lampiran A.
Narasumber merupakan penutur asli bahasa Melayu dialek Pontianak.
Setiap kalimat diucapkan oleh narasumber dan direkam dengan
menggunakan mikrofon. Perekaman dilakukan di dalam ruangan dengan kondisi
sekitar tidak berisik untuk meminimalisir noise atau suara bising pada hasil
rekaman. Gaya berbicara dari narasumber tidak dibatasi sehingga intonasi hasil
rekaman suara tidak datar. Korpus rekaman disimpan dalam format audio stereo
wav 32-bit dengan sampling rate 44 kHz.
42
Nama file kalimat dan rekaman suara disimpan dengan format tertentu
sehingga tidak berantakan. Contoh format nama yang digunakan adalah
ur_my_ar_a0001. Kata “ut” mewakili untan, Kata “my” mewakili melayu, kata
“ar” mewakili inisial nama pembicara, huruf “a” setelah lima digit angka
mewakili jenis kelamin pembicara dimana “a” merupakan laki-laki sedangkan “b”
merupakan perempuan dan lima digit angka mewakili urutan dari file.
Gambar 3.2 Skema kerja HTS yang telah dimodifikasi

dan disesuaikan dengan sistem yang dibangun
3.2.2 Pra proses pelatihan HMM

Pra proses pelatihan merupakan sebuah tahap persiapan korpus dari tahap
pengumpulan data untuk diubah menjadi korpus latih sesuai dengan format yang
diperlukan pada saat pelatihan HMM. Tahap pra proses pelatihan HMM dapat
dilihat pada gambar 3.2. Pelatihan HMM memerlukan beberapa jenis data yaitu:
1. Korpus kalimat dalam format txt yang berisi kalimat,
2. Korpus rekaman suara dalam format audio RAW 32-bit PCM dengan
43
sampling rate 16 kHz,

3. Korpus file utterance dalam format utt, dan
4. Sebuah file aturan kontekstual dalam format conf.
3.2.2.1 Konversi korpus rekaman
Beberapa jenis format suara yang diperlukan pada tahap pembuatan file
utterance dan pelatihan model Hidden Markov adalah sebagai berikut:
1. Mono RAW 16-bit dengan sampling rate 16 kHz PCM,
2. Mono WAV 16-bit dengan sampling rate 16 kHz 16-bit PCM, dan
3. Mono AIFF 16-bit dengan sampling rate 16 kHz 16-bit PCM.
Format 1 digunakan sebagai korpus latih sedangkan format 2 dan 3 akan
digunakan untuk menghasilkan file utterance menggunakan Festfox. Konversi
korpus rekaman menggunakan beberapa program yaitu sox, speech_tools
Edinburgh dan ffmpeg. Format 1 dikonversi menggunakan speech_tools
(ch_wave) dan SPTK (x2x), format 2 menggunakan sox, dan format 3
menggunakan ffmpeg. Kode program untuk konversi rekaman dapat dilihat pada
kode program 3.1.
Kode program 3.1 Konversi file rekaman suara
1. #konversi wav ke raw
2. do ch_wave -c 0 -F 32000 -otype raw file1.wav | x2x +sf | in
terpolate -p 2 -d | ds -s 43 | x2x +fs > raw_file1.raw;
3.
4. #konversi wav ke wav
5. sox file1.wav -r 16000 -b 16 wav_file1.wav
6.
7. #konversi wav ke aiff
8. do ffmpeg -i wav_file1.wav aiff_file1.aiff
3.2.2.2 Pembuatan file utterance

File utterance merupakan sebuah file yang berisi mengenai informasi
prosodi dari sebuah teks sumber. File utterance dapat dihasilkan dengan
menggunakan Festvox dan Festival TTS. Pada tahap pra proses pelatihan,
program yang digunakan untuk menghasilkan file utterance adalah Festvox.
Festvox menghasilkan file utterance dengan mengekstraksi informasi prosodi dari
korpus rekaman sedangkan Festival TTS memerlukan sebuah aturan atau model
bahasa terkait.
Setiap script pada Festvox menggunakan bahasa pemrograman Bash.
44
Festvox memerlukan program speech_tools Endinburgh. Pembuatan file utterance

memerlukan beberapa jenis data adalah sebagai berikut:
1. korpus rekaman dalam bentuk WAV dan AIFF,
2. sebuah file dengan nama text.done.data yang berisi seluruh korpus kalimat,
3. fonem bahasa melayu dialek pontianak dalam format festival TTS yaitu scm,
dan
4. kamus kata (lexicon) yang berisi cara pengucapan terhadap kata dalam format
festival yaitu scm.
Pembuatan file utterance terdiri beberapa tahap yaitu:
1. Inisialisasi Festvox
Setelah Festvox di-build, Festvox perlu diinisialisasi kembali sehingga
dapat mengelolah dan menganalisis suatu bahasa baru. Script untuk
menginisialisasi Festvox dapat dilihat pada kode program 4.2.
Kode program 3.2 Inisialisasi Festvox
1. export FESTVOXDIR=~/festvox
2. export ESTDIR=~/speech_tools/
3.
4. $FESTVOXDIR/src/clustergen/setup_cg ut my ar
Setelah script dijalankan, sebuah direktori berisi beberapa script dari

Festvox untuk menganalisi korpus akan dihasilkan. Nama direktori tersebut
adalah “ut_my_ar” sesuai dengan kode program 3.2. Struktur direktori ut_my_ar
dapat dilihat pada gambar 3.3.
Gambar 3.3 Struktur direktori hasil inisialisasi festvox
2. Mendefinisikan fonem bahasa Melayu Pontianak

Fonem bahasa Melayu dialek Pontianak tersusun atas beberapa jenis yaitu
vokal, konsonan dan diftong. Fonem didapatkan dari studi literatur dengan
membandingkan penelitian mengenai bahasa Melayu dialek Pontianak dengan
bahasa Indonesia. Informasi mengenai fonem kemudian disimpan dengan nama
45
ut_my_ar_phoneset.scm di direktori ut_my_ar/festvox.
Kode program 3.3 Contoh file phonemset untuk bahasa Melayu dialek
Pontianak
1. defPhoneSet
2. ut_my
3. ( ;;; Phone Features
4. ;; vowel or consonant
5. (vc + - 0)
6. ; vowel length: short long dipthong schwa
7. (vlng s l d a 0)
8. ;; vowel height: high mid low
9. (vheight 1 2 3 0 -)
10. ;; vowel frontness: front mid back
11. (vfront 1 2 3 0 -)
12. ;; lip rounding
13. (vrnd + - 0)
14. ;; consonant type: stop fricative affricative nasal
15. liquid approximant
16. (ctype s f a n l r 0)
17. ;; place of articulation: labial alveolar palatal
18. labio-dental dental velar glottal
19. (cplace l a p b d v g 0)
20. ;; consonant voicing
21. (cvox + - 0)
22. )
23. ;; Phone set
24. (
25. (a + l 3 1 - 0 0 0) ;; ada, apa
26. (i + l 1 1 - 0 0 0) ;; ini, ibu, kita
Bentuk format penulisan fonem pada file phonemset dapat dilihat pada
kode program 3.3 dan secara lengkap dapat dilihat pada lampiran B. Beberapa
informasi fonem yang didefinisikan pada file phonemset dapat dilihat pada tabel
3.1.
Tabel 3.1 Informasi fonem pada file phonemset
No. Informasi Fonem Isi informasi
1. Vokal atau konsonan (vc) vokal (+), konsonan (-)
2. panjang pendek fonem vokal (vlng), Pendek (s), panjang (l), diftong
(d), schwa (a)
3. tinggi rendah fonem vokal (vheight), Tinggi (1), tengah (2), rendah (3)
4. letak pengucapan fonem vokal Depan (1), tengah (2), belakang
(vfront), (3)
46
5. bulat tidaknya bibir fonem vokal Bulat (+), tidak (-)

(vrnd),
6. jenis konsonan (ctype), Stop (s), fricative (f), affricative
(a), nasal (n), liquid (l),
approximant (r )
7. letak artikulasi konsonan (cplace), Labial (l), alveolar (a),
palatal (p), labio-dental (b),
dan
dental (d), velar (v), glottal (g)
8. bunyi konsonan (cvox). Bersuara (+), tidak bersuara (-)
File phonemset menggunakan bahasa pemrograman scheme yaitu Lisp. Isi
file phonemset disesuaikan dengan format phonemset pada festvox atau festival.
Format file phonemset dapat dilihat pada salah satu contoh model suara dalam
bahasa inggris berbasis HTS yaitu cmu_arctic_slt_hts didalam direktori
festival/lib/voices. File phonemset akan digunakan kembali sebagai salah satu
konfigurasi pada bagian analisa teks pada sistem sintesa.
3. Mendefinisikan kamus kata (lexicon) dari korpus kalimat
Setiap kata yang terdapat pada korpus kalimat perlu didefinisikan di file
ut_my_ar_lexicon.scm di direktori ut_my_ar/festvox. File ut_my_ar_lexicon.scm
merupakan file yang berisi kata, part of speech (POS) dan cara pengucapan dalam
bentuk urutan fonem. Pada penelitian ini, informasi yang tersimpan pada kamus
kata hanya berupa urutan fonem. Informasi POS, suku kata dan intonasi tidak
dimasukan ke dalam kamus data. Contoh format lexicon dapat dilihat pada kode
program 3.4. File ut_my_ar_lexicon.scm dapat dilihat pada lampiran C.
Kode program 3.4 Contoh format file lexicon kata “semue”
1. (lex.add.entry '("semue" n (( ((s e~ m u e~) 0) )))
4. Membuat file text.done.data
File text.done.data berisi mengenai nama file rekaman dan isi teks dari file
rekaman yang digunakan pada saat pembuatan file utterance. File text.done.data
disimpan pada direktori ut_my_ar/etc. File text.done.data dapat dilihat pada
lampiran D.
Kode program 3.5 Contoh isi dari file text.done.data
1. ( ut_my_ar_0001 "semue mue e tepat waktu" )
5. Memasukan korpus rekaman

Korpus rekaman hasil konversi yaitu WAV dan AIFF dalam disimpan di
dalam direktori ut_my_ar/wav. Nama korpus rekaman harus disesuaikan dengan
47
nama file yang telah didefinisikan pada file text.done.data di direktori

ut_my_ar/etc.
6. Pembuatan file utterance
Pembuatan file utterance terdiri atas pengecekan kata, pelabelan fonem
dan pembuatan file utterance. Proses pengecekan kata yaitu mengecek kata dari
kalimat yang terdapat dari korpus dengan kamus kata (lexicon) yang telah
didefinisikan pada file ut_my_ar_lexicon.scm. Jika terdapat kata diluar kamus
data, maka pelabelan pada file terkait tidak akan dilakukan oleh baris perintah.
Kode program 3.6 Memeriksa dan menjalankan pelabelan otomatis
1. ./$FESTVOXDIR/bin/do_build build_prompts
2. ./$FESTVOXDIR/bin/do_build label
Pelabelan fonem pada festvox menggunakan metode ASR (Automatic

Speech Recognition). Pelabelan fonem dilakukan dengan menjalankan kode
program 3.6. Hasil pelabelan festvox disimpan di direktori ut_my_ar/lab. Hasil
pelabelan berupa file dengan ekstensi lab dengan format xlabel. Hasil perbaikan
pelabelan dapat dilihat pada lampiran E.
Hasil pelabelan dengan menggunakan metode ASR dibandingkan dengan
hasil pelabelan manual. Hasil pelabelan yang tidak tepat kemudian diperbaiki
dengan mengunakan aplikasi wavesurfer. Perbandingan hasil pelabelan dengan
metode ASR dan manual dengan menggunakan wavesurfer dapat dilihat pada
gambar 3.4. Hasil pelabelan akan mempengaruhi kualitas file utterance yang
dihasilkan sehingga secara garis lurus hasil pelabelan akan mempengaruhi model
Hidden Markov hasil pelatihan dan kualitas suara yang dihasilkan.
48
Gambar 3.4 Perbandingan hasil pelabelan dengan festvox dan manual pada
kata “tadak” dan “macam” pada kalimat no 4 pada korpus.
Setelah pelabelan diperbaiki, langkah terakhir untuk membuat file
utterance adalah menjalankan kode program 3.8. File utterance akan dihasilkan di
dalam direktori ut_my_ar/festival/utts. File utterance dapat dilihat pada lampiran
F.
Kode program 3.7 Membuat file utterance
1. ./$FESTVOXDIR/bin/do_build build_utts
3.2.2.3 Pembuatan aturan kontekstual

File aturan kontekstual dependent yang digunakan akan mengacu pada
salah satu contoh file aturan di dalam salah satu demo HTS dalam bahasa inggris.
File aturan dapat dilihat pada direktori hts_demo/data/configs dengan nama file
en_US.talk.conf. File aturan untuk bahasa inggris memiliki struktur yang hampir
sama dengan bahasa melayu dialek pontianak yaitu fonem, suku kata, kata, aksen
atau penekanan kata, dan utterance.
File aturan kontekstual untuk bahasa inggris disesuaikan dan diubah
sehingga dapat digunakan untuk bahasa Melayu dialek Pontianak. Perubahan yang
dilakukan pada file aturan kontektual dari hts demo adalah fonem yang digunakan.
File aturan kontekstual dapat dilihat pada lampiran G.
3.2.3 Pelatihan HMM

Pelatihan HMM bertujuan untuk memodelkan parameter-paramter suara
yang didapatkan dari korpus dan informasi prosodi dari label kontekstual menjadi
49
model Hidden Markov. Pelatihan HMM menggunakan demo HTS untuk bahasa
Inggris dengan metode speaker dependent (SD). Demo dapat diunduh di
http://hts.sp.nitech.ac.jp/?Download. Demo HTS yang digunakan adalah HTS-
demo_CMU-ARCTIC-SLT. Demo HTS terdiri dari korpus dan beberapa script
yang digunakan untuk mengekstraksi, menganalisis parameter suara dan ucapan
serta membangun model Hidden Markov.
Demo HTS memerlukan beberapa program lain yaitu SPTK, Festival TTS,
HTK yang telah ter-patch dengan HTS, dan HTS_engine. Demo terdiri dari dua
tahap yaitu tahap pelatihan dan sintesa. Tahap sintesa pada demo HTS tidak
termasuk bagian analisis teks (front-end TTS) sehingga tidak dapat mensintesa
ucapan dari teks biasa melainkan berdasarkan format label kontekstual HTS.
Struktur direktori HTS demo dapat dilihat pada gambar 3.5.
Gambar 3.5 Struktur direktori hts demo
Demo HTS untuk bahasa Inggris dimodifikasi sehingga demo dapat

dijalankan dengan menggunakan bahasa Melayu dialek Pontianak. Beberapa
langkah yang dilakukan yaitu:
1. mengganti file en_US.talk.conf menjadi file aturan kontektual di direktori
configs,
2. mengganti korpus kalimat bahasa Inggris menjadi korpus kalimat bahasa
Melayu dialek Pontianak di dalam direktori data\txt,
50
3. mengganti korpus rekaman suara bahasa Inggris menjadi korpus rekaman

suara bahasa Melayu dialek Pontianak di dalam direktori data\raw,
4. mengganti korpus utterance bahasa Inggris menjadi korpus utterance bahasa
Melayu dialek Pontianak di dalam direktori data\utt,
5. Mengubah format nama file di config.pm di direktori hts-demo/scripts dapat
dilihat di kode program 3.8,
6. Mengubah file phonemset pada Festival TTS sesuai dengan file phonemset
bahasa Melayu dialek Pontianak hanya pada saat tahap pelatihan model
Hidden Markov.
Kode program 3.8 Pengaturan nama file pada scripts/Config.pm

1. # Settings ==============================
2. $fclf = 'HTS_TTS_MY'; #sebelumnya = HTS_TTS_ENG
3. $fclv = '1.0';
4. $dset = 'ut_my'; #sebelumnya = cmu_us_arctic
5. $spkr = 'ar'; #sebelumnya = slt
6. $qname = 'id_MY.talk'; #sebelumnya = en_US.talk
7. $ver = '1';
8. $usestraight = '0';
Setelah korpus dan data di demo diubah, terdapat beberapa script yang
telah tersedia di demo yang perlu dijalankan yaitu diantaranya adalah konfigurasi
daftar lokasi program lain yang digunakan dan ekstraksi beberapa parameter suara
dari korpus latih. Parameter suara terdiri dari parameter spektral dan parameter
eksitasi. Parameter spektral yang terdiri atas vektor koefisien mel-cepstral
termasuk koefisien nol, delta koefisien mel-cepstral dan koefisien delta-delta.
Parameter eksitasi terdiri atas log frekuensi dasar atau log F0 termasuk
diantaranya delta log F0, dan koefisien delta-delta.
Setelah script dijalankan, tahap pelatihan HMM dilakukan dengan
menjalankan script Training.pl pada direktori scripts. Implementasi script yang
dijalankan dapat dilihat pada kode program 3.9.
Kode program 3.9 konfigurasi dan melatih HMM
1. cd /demo_hts
2.
3. #konfigurasi demo
51
4. ./configure --with-fest-search-
path=/home/ubuntu/festival/examples \
5. --with-sptk-search-path=/usr/local/bin \
6. --with-hts-search-path=/usr/local/HTS-2.3/bin \
7. --with-hts-engine-search-path=/usr/local/bin
8.
9. #mengekstraksi parameter suara
10. make
11.
12. #melatih HMM
13. perl scripts/Training.pl script/Config.pm
Proses pelatihan HMM memerlukan beberapa jam. Waktu yang diperlukan

pada tahap pelatihan HMM dengan jumlah korpus latih 300 kalimat adalah kurang
lebih lima jam. Parameter spektral dimodelkan dengan menggunakan multivariate
Gaussian distributions dan parameter ekstitasi dimodelkan dengan menggunakan
multi-space probability distribution Hidden Markov Models (MSD-HMMs).
Setiap parameter dimodelkan secara terpisah namun dalam framework yang sama.
setiap parameter dikluster masing-masing dengan menggunakan sebuah pohon
keputusan dengan teknik kluster yang disebut dengan minimum distance length
(MDL). Setelah proses pelatihan selesai, model Hidden Markov dihasilkan pada
direktori demo_hts/voices/ver1. Model terdiri dari beberapa file yang dapat dilihat
pada gambar 3.6.
Gambar 3.6 model yang dihasilkan dari tahap pelatihan
Setiap file memiliki fungsi atau representasi masing-masing terhadap

model suara tertentu. File mgc merepresentasi model parameter spektral, file lpf
merepresentasi model parameter eksitasi, file dur merepresentasi model parameter
durasi, dan file tree merepresentasi pohon keputusan. File htsvoice merupakan
sebuah file hasil kompresi dari model-model parameter lain. File model akan
digunakan oleh sistem yang dibagun untuk membangkitkan gelombang suara dari
52
teks. Pada penelitian ini, file model yang digunakan adalah file htsvoice.
3.2.4 Desain dan perancangan sistem

Sistem yang dibangun berbasis halaman web. Sistem terdiri dari dua
bagian yaitu bagian front-end dan back-end. Bagian front-end adalah bagian yang
mengolah masukan teks pengguna menjadi label kontekstual yang berisi informasi
prosodi dan bagian back-end merupakan bagian yang mengolah label kontekstual
tersebut menjadi gelombang suara. Bagian front-end terdiri dari beberapa proses
yaitu normalisasi teks, pembuatan file utterance, dan pembuatan label kontekstual.
Diagram alir proses pada front-end sampai back-end digambarkan dengan
diagram alir pada gambar 3.7.
Gambar 3.7 Diagram alir sistem

3.2.4.1 Normalisasi teks
Normalisasi merupakan sebuah proses mengubah teks masukan pengguna
menjadi format teks yang dapat diterima dan diolah proses berikutnya.
Normalisasi terbagi menjadi beberapa proses berupa penghilangan beberapa jenis
tanda baca atau simbol yang tidak ditanganin oleh sistem, pengkonversian
beberapa jenis format tanggal, waktu dan angka dan penerapan aturan letter-to-
sound untuk menangani kata-kata diluar kamus kata yang telah didefinisikan pada
saat tahap pelatihan HMM. Diagram alir proses normalisasi dapat dilihat pada
gambar 3.8. Hasil akhir dari proses normalisasi adalah teks dengan beberapa jenis
tanda baca atau simbol dan kamus kata tambahan untuk kata diluar kamus data.
53
Gambar 3.8 Diagram alir normalisasi
1. Penghapusan token tertentu

Penghapusan token tertentu merupakan proses menghilangkan token
tertentu yang tidak ditanganin oleh sistem. Token dapat berupa alfabet, angka,
tanda baca, simbol atau unit seperti kata atau kalimat. Penghapusan token tertentu
dikarenakan jumlah token terutama simbol tersedia yang banyak sehingga perlu
adanya dilakukan pembatasan. Beberapa jenis token yang ditanganin oleh sistem
dapat dilihat pada tabel 3.2. Diagram alir penghapusan token tertentu dapat dilihat
pada gambar 3.9.
54
Gambar 3.9 Diagram alir penghapusan token tertentu
Tabel 3.2 Jenis token yang ditanganin oleh sistem

No Nama Simbol
.
1. Alfabet A-Z dan a-z
2. Angka 0-9
3. Ampersand &
4. Tanda hubung -
5. Garis miring atau garing /
6. Tidle atau gelombang ~
7. Tanda petik satu ‘
8. Koma ,
9. Titik .
10. Tambah +
11. Tanda Lebih besar >
12. Tanda lebih kecil <
13. Sama dengan =
14. Tanda at @
Selain penghapusan token tertentu, token terutama tanda baca dan simbol
yang berlebihan juga akan dihapus. Teks yang memiliki token yang berlebihan
seperti “++--++” akan disederhanakan menjadi “+-+”. Pencarian dan
penghapusan token yang berlebihan akan menggunakan regular expression atau
regex.
2. Penambahan spasi pada token
55
Penambahan spasi pada token merupakan proses menambahkan spasi baik

sebelum dan setelah tanda baca titik dan koma yang terletak diakhir kalimat.
Sedangkan beberapa jenis token lain yang tidak digunakan untuk format tanggal
ataupun angka akan ditambahkan spasi setelah token tersebut. Penambahan spasi
ini untuk mempermudah proses tokenisasi. Diagram alir penambahan spasi pada
token dapat dilihat pada gambar 3.10.
Gambar 3.10 Diagram alir penambahan spasi pada token tertentu
3. Tokenisasi
merupakan proses memecah teks menjadi kata atau kalimat menjadi token-
token tertentu. Teks dipecah berdasarkan spasi dan setiap token yang dihasilkan
akan dimasukan kedalam sebuah array sehingga mempermudah konversi pada
tahap berikutnya.
4. Konversi token menjadi teks
Konversi token menjadi teks merupakan proses mengubah token menjadi
teks berdasarkan beberapa jenis format yaitu tanggal, waktu, dan angka. Jenis
format dan contoh hasil konversi dapat dilihat pada tabel 3.3.
Tabel 3.3 Jenis format akan dikonversi didalam teks inputan
No Skenario Format Contoh
56
. Pengujian
1. Tanggal dd-mm-yyyy 12-01-1996, duak belas desember seribu
sembilan ratus sembilan puluh enam
mm-dd-yyyy 01-12-1996, duak belas desember seribu
sembilan ratus sembilan puluh enam
dd/mm/yyyy 05/02/2001, lima pebuari dua ribu satu
mm/dd/yyyy 05/02/2001, duak pebuari april dua ribu
satu
mm-yyyy 12-2006, desember duak ribu enam
mm/yyyy 1/2006, januari duak ribu enam
2. Waktu hh:mm:ss 01:12:56, jam satu duak belas menit
lima puluh detik
hh:mm 2:30, jam duak tige puloh menit
3. Pembacaan Panjang digit 1000, seribu
angka kurang dari 5
#,00 2,12, duak koma satu duak
sesuai
#.00 2.12, duak koma satu duak
nominal #.000,00 2.192,12, duak ribu serratus sembilan
puloh duak koma satu dua
#,000.00 2,192.12, duak ribu serratus sembilan
puloh duak koma satu dua
4. Pembacaan Panjang digit 1012300, satu kosong satu duak tige
angka lebih dari 4 kosong kosong
Kombinasi digit 13-2006-12, duak belas duak ribu enam
sesuai per
dengan tanda duak belas,
digit
baca tertentu 13-100/12, tige belas seratus garing
duak belas
Simbol dd mewakili tanggal (date), MM mewakili bulan (month), dan
yyyy (year) mewakili tahun pada format tanggal. Sedangkan hh mewakili jam
(hour), mm mewakili menit (minute) dan ss mewakili detik (seconds).
Diagram alir konversi token menjadi teks dapat dilihat pada gambar 3.11.
Himpunan token dihasilkan dari proses tokenisasi akan diperiksa satu per satu
menggunakan regex. Terdapat lima jenis format yang digunakan yaitu tanggal,
waktu, angka sesuai nominal, angka per digit dan teks normal. Setiap token yang
telah teridentifikasi dalam salah satu lima format yang telah ditentukan, akan
dikonversi menjadi teks sesuai dengan format yang telah ditentukan.
57
Gambar 3.11 Diagram alir konversi token
Selain format tersebut, token-token tersisa yang berupa tanda baca dan
simbol selain titik koma, tanda hubung dan tidle akan dikonversi menjadi teks
sesuai definisi tanda baca atau simbol tesebut. Proses ini dilakukan bertujuan agar
teks hasil konversi tidak memiliki token selain titik, koma dan tidle yang belum
terkonversi menjadi kata.
5. Pengecekan kamus data
Pengecekan kamus data merupakan proses mengecek setiap kata dari teks
hasil konversi terhadap kamus kata. Kamus data akan disimpan dalam bentuk file
teks. Kamus data yang digunakan berbeda dengan kamus data (lexicon) yang ada
di aplikasi Festival TTS. Kamus data yang digunakan pada proses ini hanya
kumpulan kata yang sesuai dengan kamus data pada aplikasi Festival TTS.
Pengecekan ini bertujuan mengetahui apakah terdapat kata diluar dari kamus kata.
Jika terdapat kata diluar dari kamus kata maka kata diluar dari kamus data perlu
diproses pada proses berikutnya yaitu penerapan aturan letter-to-sound.
6. Penerapan aturan letter-to-sound
58
Penerapan aturan letter-to-sound merupakan proses menghasilkan

pengucapan secara standar terhadap kata-kata diluar kamus data. Aturan letter-to-
sound yang digunakan yaitu memenggal setiap huruf pada kata. Contoh
pemenggalan yang dilakukan yaitu pada kata bapak akan dipenggal menjadi 6
satuan yaitu b, a, p, a, dan k. Diagram alir penerapan aturan letter-to-sound dapat
dilihat pada gambar 3.12.
Terdapat beberapa jenis fonem bahasa Melayu Pontianak yang
penulisannya menggunakan dua karakter alfabet yaitu diftong yang terdiri dari ai,
au, dan oi serta 2 jenis konsonan yaitu ny dan ng. Sebelum kata dipenggal menjadi
huruf, kata akan dicek dulu apakah susunan huruf sesuai dengan diftong atau jenis
konsosnan yang terdiri dari 2 karakter. Jika terdapat susunan huruf yang sesuai
maka susunan tersebut akan dipenggal menjadi satu kesatuan contohnya kata
bangau akan dipenggal menjadi 4 satuan yaitu b, a, ng, dan au.
Gambar 3.12Diagram alir penerapan aturan letter-to-sound
Selain diftong dan konsonan yang terdiri atas 2 karakter, pemenggalan

khusus akan dilakukan pada huruf “e” dengan tanda gelombang (“~”) yaitu “e~”.
Token “e~” mewakili fonem ǝ karena pembacaan huruf “e” pada bahasa Melayu
dialek Pontianak memiliki 2 cara pengucapan yaitu fonem “e” pada contoh kata
59
“ekor” dan ǝ pada contoh kata “enak”.

Setelah kata dipenggal, kumpulan hasil penggalan akan disimpan dalam
format kamus data (lexicon) sesuai dengan format kamus data dari aplikasi
Festival TTS. Penerapan aturan ini bertujuan agar dapat membuat file utterance
dengan aplikasi Festival TTS. Informasi prosodi yang disimpan pada kamus data
hanya berupa urutan fonem tanpa suku kata dan intonasi. Kamus data yang baru
akan disimpan secara sementara.
7. Penggabungan teks
Penggabungan teks adalah proses menggabungkan sekumpulan kata yang
telah melalui proses sebelumnnya menjadi sebuah kalimat. Penggabungan
menggunakan spasi. Hasil dari proses ini adalah teks atau kalimat yang telah
ternormalisasi.
3.2.4.2 Pembuatan file utterance

Pembuatan file utterance adalah proses mengubah teks yang
ternormalisasi menjadi format file utterance. File utterance dihasilkan dari
Festival TTS dengan menggunakan file model HTS untuk bahasa Melayu
dialek Pontianak. Festival TTS memiliki konfigurasi dasar berupa bahasa
Inggris. Konfigurasi untuk bahasa Melayu dialek Pontianak perlu
ditambahkan pada Festival sehingga file utterance yang dihasilkan sesuai
dengan model HTS. Konfigurasi tersebut ditambahkan pada direktori
lib/voice di dalam direktori Festival TTS. Struktur direktori konfigurasi
bahasa Melayu dialek Pontianak dapat dilihat pada gambar 3.13.
60
Gambar 3.13 Struktur direktori konfigurasi untuk bahasa Melayu dialek

Pontianak pada Festival TTS
File ut_my_ar_phonemset.scm dan ut_my_ar_lexicon.scm didapatkan

dari tahap pra proses pelatihan HMM. file ut_my_ar.htsvoice didapatkan dari
tahap pelatihan HMM. File feat.list merupakan daftar beberapa aturan
informasi prosodi yang didapatkan dari demo HTS pada tahap pelatihan
HMM. File feat.list yang digunakan sama dengan file feat.list untuk bahasa
Inggris karena struktur label kontektual yang digunakan mengikuti struktur
label kontekstual dari bahasa Inggris.
File ut_my_ar_hts.scm sebagai sebuah file manifest untuk
menghubungkan file-file konfigurasi lain. File ut_my_ar_hts.scm dapat
dilihat pada lampiran H. Setelah konfigurasi ditambahkan, file utterance
dapat dihasilkan.
3.2.4.3 Pembuatan label kontekstual

Pembuatan label kontekstual adalah proses mengubah file utterance
menjadi label kontekstual HTS. Format label kontekstual dapat dilihat pada
lampiran K. Pengubahan file utterance menjadi label kontekstual HTS
menggunakan Dumpfeat dari Festival TTS dan gawk. Format label
kontekstual HTS diperlukan oleh aplikasi HTS_engine agar dapat
menghasilkan suara ucapan dengan model Hidden Markov yang dihasilkan
dari tahap pelatihan.
3.2.4.4 Pembuatan gelombang suara

61
Pembuatan gelombang suara merupakan proses membunyikan teks

masukan pengguna yang telah diubah menjadi label kontekstual. Pembuatan
gelombang suara menggunakan aplikasi HTS_engine. Hasil suara ucapan
sintesa disimpan dalam bentuk format audio digital WAV sehingga file suara
dapat dibunyikan kembali melalui browser.
3.2.4.5 Arsitektur sistem

Arsitektur sistem merupakan gambaran secara umum mengenai hubungan
antar komponen yang terlibat dalam sistem yang dibangun. Sistem terdiri dari
sebuah webserver dan pengguna. Pengguna merupakan orang awam atau end-
user. Setiap pengguna memiliki hak akses (privilege) yang sama. Halaman web
diakses melalui browser.
Gambar 3.14 Arsitektur Sintesa ucapan
Sistem dapat menerima inputan berupa teks kemudian teks diolah dan
diubah menjadi file suara dengan format wav. Pengguna akan mendapatkan
respons balik berupa file suara yang diputar dengan menggunakan perangkat
lunak pemutar audio berbasis web. Arsitektur dari sistem dapat dilihat pada
gambar 3.14.
3.2.4.6 Rancangan antarmuka sistem

Rancangan antarmuka sistem bertujuan merancang sebuah antarmuka
(user interface) yang ditujukan kepada pengguna sehingga pengguna dapat
menggunakan sistem dengan baik. Rancangan antarmuka yang baik dapat
meningkatkan daya tarik atau mempermudah pengguna untuk menggunakan
sistem.
Antarmuka yang dirancang pada sistem yang dibangun berupa sebuah
halaman web utama atau yang juga disebut beranda dan halaman keterangan.
62
Halaman beranda berisi mengenai kolom masukan pengguna dan sebuah pemutar
audio yang muncul ketika teks yang dimasukan telah berhasil diolah menjadi
gelombang suara. Sedangkan halaman keterangan berisi mengenai beberapa
informasi atau keterangan tambahan mengenai sistem yang dibangun. Rancangan
antarmuka halaman beranda dan halaman keterangan dapat dilihat masing-masing
pada gambar 3.15 dan 3.16.
Gambar 3.15 Rancangan antarmuka halaman beranda
Gambar 3.16 Rancangan Antarmuka halaman keterangan
3.2.5 Implementasi Sistem

Implementasi sistem dilakukan berdasarkan kepada desain dan
perancangan sistem yang telah dilakukan pada tahap sebelumnya. Pada tahap ini,
sistem akan dibangun berbasis web dengan menggunakan PHP, HTML dan CSS.
Sistem terdiri dari dua bagian yaitu bagian analisis teks dan bagian sintesa.
Bagian analisi teks merupakan bagian untuk mengolah teks menjadi label
kontekstual atau label yang berisi informasi prosodi atau cara pengucapan. Bagian
analisis teks akan dibuat dengan menggunakan bahasa pemrograman python, dan
API dari festival TTS. Bagian sintesa merupakan bagian untuk mengolah label
kontekstual menjadi gelombang suara. Bagian sintesa menggunakan hts_engine
dan model Hidden Markov yang dihasilkan dari tahap pelatihan HMM.
63
3.2.6 Pengujian Sistem

Pengujian sistem adalah sebuah tahap mengevaluasi sistem yang
dibangun. Terdapat dua jenis objek penilaian yaitu kinerja sistem dan kualitas dari
hasil ucapan yang disintesakan. Pengujian terhadap kinerja sistem akan
menggunakan pengujian black-box sedangkan pengujian terhadap kualitas hasil
sintesa akan menggunakan pengujian Mean Opinion Score (MOS), Comparasion
Mean Opinion Score (CMOS), AB, dan Word Error Rate (WER).
Pengujian MOS, CMOS, dan WER akan dilakukan secara berurutan
dengan jumlah responden 30 orang. Responden berasal dari kalangan akademis
yaitu mahasiswa program studi Informatika Universitas Tanjupura yang memiliki
pemahaman mengenai bahasa Melayu dialek Pontianak. Pengujian MOS, CMOS,
dan WER akan dilakukan tiga kali dengan variasi variasi hasil sintesa yang
berbeda dan responden yang berbeda sehingga total responden adalah 90 orang.
Variasi hasil sintesa dibedakan dengan membedakan jumlah kalimat yang
digunakan pada tahap pelatihan model HMM. Variasi hasil sintesa dapat dilihat
pada tabel 3.4 dan skema pengujian dapat dilihat pada tabel 3.5.
Tabel 3.4 Daftar variasi hasil sintesa
No Nama variasi Jumlah korpus latih keterangan
.
1. x 100 no. kalimat 1 - 100
2. y 200 no. kalimat 101 - 200
3 z 300 no. kalimat 201 - 300
Tabel 3.5 Skema pengujian MOS, CMOS, AB, dan WER

No Variasi hasil sintesa Jumlah responden Jenis pengujian
.
1. x 30 MOS, CMOS, WER, AB
2. y 30 MOS, CMOS, WER
3 z 30 MOS, CMOS, WER
Pengujian AB hanya akan dilakukan sekali pada pengujian dengan variasi
z. Kalimat yang digunakan pada pengujian MOS, CMOS, AB dan WER
berjumlah 10 kalimat berasal dari korpus kalimat yang dapat dilihat pada lampiran
64
A. Daftar kalimat uji dapat dilihat pada tabel 3.6. Penilaian terhadap setiap
pengujian akan diisi oleh responden dengan lembar penilaian atau quisioner yang
dapat dilihat pada lampiran M.
Tabel 3.6 Daftar kalimat untuk pengujian MOS, CMOS, AB, dan WER
Nomor
No Kalimat
kalimat
1 9 dahlah, kite tunggu jak beberape ari agek
begitu sampai tang luar, ku tengok tukang pos tu barok nak
2 26 ngidopkan motor
3 60 kamek pegi pakai motor, kalok tak salah kamek pegi betujoh
duak orang barat tu ngakuk kalok sepanjang jalan dari rasau ke
4 69 kubu, pemandangan alamnye cantek luar biase
kamek ade di ajak pegi jalan jalan, pakai kapal nelayan belahek
5 77 utan bakau
6 92 semue mate kamek tetuju ke aek payau
7 115 ade yang udah dipotong-potong, disuson-suson rapi
8 124 mampu die ngasi motipasi masarakat e, supaye teros kerje keras
aku pun ngasikkan tustel aku ke die, lalu bedirila aku tekejong
9 218 tang depan kincer angen
10 266 leteh otak palak aku mikirkan e
3.2.6.1 Pengujian Black Box

Pengujian black-box merupakan pengujian fungsionalitas sistem.
Pengujian black-box bertujuan untuk memeriksa sistem dapat berjalan dan
menjalankan fungsi-fungsi sistem dengan benar. Sistem hanya menerima satu
jenis inputan yaitu teks, namun sistem harus dapat mengenali beberapa tipe tanda
baca dan format tertentu yang dapat dilihat pada tabel 3.3 serta mengubah format /
tanda baca tersebut menjadi teks.
Bentuk tabel pengujian black-box dapat dilihat pada tabel 3.7. Tabel
pengujian black-box terdiri dari tiga kolom yaitu skenario pengujian, hasil yang
diharapkan dan kesimpulan. Skenario pengujian berisi mengenai deskripsi
pengujian yang dilakukan serta bentuk masukan (input). Hasil yang diharapkan
65
berupa deskripsi mengenai hasil keluaran (output) yang diharapkan serta hasil
keluaran dari sistem. Bagian kesimpulan terdiri dari dua keluaran (output) yaitu
valid atau tidak valid. Hasil valid didapatkan ketika hasil yang diharapkan sesuai
dengan hasil keluaran (output), sedangkan jika tidak sesuai maka hasil yang
didapatkan tidak valid.
Tabel 3.7 Tabel pengujian black-box
No. Skenario Pengujian Hasil yang diharapkan Kesimpulan
1.  Deskripsi pengujian  Deskripsi hasil yang  Hasil
 Bentuk masukan diharapkan. pengujian
(input)  Hasil pengujian
2 … … …
. . . .
. . . .
. . . .
n … … …
3.2.6.2 Pengujian MOS

Pengujian MOS merupakan penilaian secara subjektif oleh penguji
terhadap objek pengujian dengan kriteria yang telah ditentukan. Pengujian MOS
berupa uji mendengarkan. Uji mendengarkan pada pengujian MOS akan
dilakukan dengan memperdengarkan hasil sintesa ucapan kepada responden tanpa
diberikan transkrip ucapan. Uji mendengarkan diperdengarkan sebanyak tiga kali.
Pengulangan dilakukan karena daya tangkap setiap responden berbeda sehingga
diberi kesempatan untuk mendengar kembali sebanyak jumlah yang ditetapkan
dan memberikan penilaian yang lebih akurat. Pengujian MOS untuk menguji
tingkat kealamian hasil sintesa berdasarkan referensi pribadi dari responden.
Responden akan memberikan penilaian secara subjektif pada tingkat
kealamian hasil sintesa. Penilaian pada setiap kategori menggunakan skala yang
dapat dilihat pada tabel 3.7. Responden akan mengisi penilaian sesuai dengan
skala pada lembar quisioner yang dapat dilihat pada lampiran M.
Tabel 3.8 Tabel penilaian MOS yang telah dimodifikasi
MOS Kualitas
4 Sangat baik
3 Baik
2 Buruk
1 Sangat buruk
66
Skala penilaian MOS pada tabel 3.7 akan dikonversi ke skala 1-5 sesuai
dengan standar ITU-P.800.1. Skala penilaian MOS menggunakan skala 1-4
dikarenakan skala 3 dengan kualitas peniliaian sedang atau cukup pada skala
penilaian MOS dengan standar ITU-P.800.1 dapat menyebabkan kebingungan
terhadap responden. Kebingungan yang terjadi disebabkan responden akan
cenderung memberi nilai sedang atau cukup terhadap objek pengujian yang belum
pasti baik ataupun buruk dimana penilaian sedang atau cukup tidak memiliki batas
yang jelas. Konversi dilakukan dengan rumus:
5
bobot 2= bobot 1 (3.1)
4
Pengujian MOS dilakukan dengan rumus:
n
MOS = ∑ x (i). k (3.2)

i=0
N
Dengan x(i) merupakan nilai sampel ke-i, k merupakan jumlah bobot yang
diberikan oleh responden dan telah dikonversi pada rumus 3.2 dan N merupakan
jumlah responden. Nilai MOS dihitung dengan merata-rata nilai MOS dengan
jumlah responden N.
Pengujian MOS dilakukan sebanyak tiga kali sesuai dengan skema
pengujian di tabel 3.5. Kalimat uji yang digunakan dapat dilihat pada tabel 3.6.
Nilai MOS yang didapatkan dari setiap responden berjumlah 10 nilai sehingga
total nilai MOS yang didapatkan pada satu jenis variasi hasil sintesa adalah 300
nilai. Nilai MOS ini akan dirata-ratakan sehingga didapat sebuah nilai MOS untuk
satu jenis variasi sintesa. Nilai MOS akan direkap dan disimpan pada tabel hasil
pengujian MOS yang dapat dilihat pada tabel 3.9.
Tabel 3.9 Tabel hasil pengujian MOS
Penilaian MOS
MOS
Nomor Responden per kalimat
1 2 3 4 5 6 7 8 9 10
1 3 2 2 3 3 2 3 3 2 2 2.5
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
30 … … … … … … … … … … …
Nilai MOS rata-rata …
67
3.2.6.3 Pengujian CMOS

Pengujian CMOS mirip dengan pengujian MOS namun pada pengujian
CMOS, suara hasil sintesa yang diperdengarkan akan dibandingkan dengan suara
rekaman asli dari korpus latih. Pengujian CMOS bertujuan untuk membandingkan
tingkat kealamian dan kemiripan hasil sintesa terhadap referensi asli. Skala dalam
penilaian CMOS dapat dilihat pada tabel 3.8.
Tabel 3.10 Tabel penilaian CMOS
CMOS Kualitas
4 Sangat Mendekati
3 Mendekati
2 Tidak Mendekati
1 Sangat Tidak Mendekati
Tahap-tahap pengujian CMOS berkaitan mengenai cara perhitungan serta
kalimat uji yang digunakan sama seperti tahap pengujian MOS. Nilai CMOS akan
direkap di tabel dengan format sesuai tabel 3.9 hasil pengujian MOS. Perbedaan
antar dua pengujian tersebut adalah pada pengujian CMOS, rekaman suara yang
berasal dari korpus latih akan diperdengarkan setelah hasil sintesa dan kalimat uji
akan diacak. Pada pengujian CMOS, transkrip ucapan tetap tidak disertakan.
3.2.6.4 Pengujian AB
Pengujian AB merupakan pengujian perbandingan. Perbandingan yang
dilakukan yaitu membandingkan hasil sintesa dengan variasi hasil sintesa yang
sebelumnya telah dijelaskan pada pengujian MOS. Urutan variasi hasil sintesa
akan diacak setiap kalimat sehingga responden tidak akan memperkirakan variasi
hasil sintesa. Hasil sintesa diperdengarkan sebanyak tiga kali sama seperti
pengujian yang lain. Urutan variasi sintea dapat dilihat pada tabel 3.9. Hasil dari
pengujian AB berupa modus atau kemunculan terbanyak dari sebuah kumpulan
data. Hasil dari pengujian AB akan direpresentasikan dalam bentuk persen.
Tabel 3.11 Urutan variasi hasil sintesa pada pengujian AB.
No. Variasi hasil sintesa
No
kalimat Pembunyian ke-1 Pembunyian ke-2 Pembunyian ke-3
1 2 x y z
2 8 z y x
3 6 y z x
4 7 z y x
68
5 3 x z y
6 9 y x z
7 5 z x y
8 4 y z x
9 10 x y z
10 1 z x y
3.2.6.5 Pengujian WER

Pengujian WER bertujuan untuk menghitung akurasi hasil sintesa. Hasil
sintesa didapatkan dari model Hidden Markov. Pengujian WER dilakukan
bersamaan dengan pengujian MOS dan CMOS. Setelah didengarkan hasil sintesa,
responden diminta untuk menuliskan kembali kalimat yang telah didengarkan.
Kalimat yang telah ditulis kembali oleh responden kemudian dibandingkan
dengan transkrip kalimat uji. Hasil pebandingan tersebut digunakan untuk
menghitung tingkat kejelasan hasil sintesa. Perhitungan WER menggunakan
rumus 3.3 dan tingkat kejelasan hasil sintesa direpresentasi dalam bentuk akurasi
WER dengan mennggunakan rumus 3.4.
S + D+ I
WER = (3.3)
Nr
Akurasi WER = 1 – WER (3.4)
S atau singkatan dari substitution merupakan jumlah kata yang terganti
pada kalimat yang telah didengarkan dan ditulis kembali, D atau deletion
merupakan jumlah kata yang terhapus, I atau insertion merupakan jumlah kata
yang tertambah dan Nr merupakan jumlah kata pada kalimat yang didengarkan.
Nilai WER didapatkan dari menjumlahkan jumlah kata terganti, terhapus dan
tertambah kemudian dibagi dengan jumlah kata dari kalimat.
Setiap responden mendapat 10 kalimat uji sesuai dengan tabel 3.6
sehingga jumlah nilai WER yang didapatkan untuk satu variasi hasil sintesa
adalah 300 nilai dan direkap pada tabel 3.12. Nilai WER untuk satu variasi hasil
sintesa adalah hasil rata-rata dari semua nilai WER pada variasi hasil sintesa
tersebut.
Tabel 3.12 Tabel hasil pengujian WER
No. No Hasil dikte Jumlah total WER
Res Kali I U D kata
po mat
69
nden
1 … … … … … …
. . . . . . .
1 . . . . . . .
. . . . . . .
2 … … … … … …
. . . . . . . .
. . . . . . . .
. . . . . . . .
1 … … … … … …
. . . . . . .
30 . . . . . . .
. . . . . . .
10 … … … … … …
Nilai rata-rata WER …
Akurasi WER …
3.2.7 Analisi Hasil Pengujian

Pada tahap ini, hasil pengujian sistem akan dianalisis secara keseluruhan
untuk mempermudah penarikan kesimpulan.
3.2.8 Penarikan Kesimpulan

Kesimpulan dirumuskan berdasarkan tahapan-tahapan yang telah
dilakukan sebelumnya apakah sistem yang dirancang dan dibangun dapat berjalan
baik sesuai dengan yang diharapkan.

Bab 3 R.2.1

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 3 R.2.1

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB III

3.1 Spesifikasi Perangkat Keras dan Perangkat Lunak

3. Sistem operasi Ubuntu Server versi 16.04 64-bit

3.2 Metode Penelitian

Gambar 3.1 Diagram Alir penelitian

3.2.1 Pengumpulan data

Gambar 3.2 Skema kerja HTS yang telah dimodifikasi

3.2.2 Pra proses pelatihan HMM

sampling rate 16 kHz,

3.2.2.2 Pembuatan file utterance

Festvox memerlukan program speech_tools Endinburgh. Pembuatan file utterance

Setelah script dijalankan, sebuah direktori berisi beberapa script dari

Gambar 3.3 Struktur direktori hasil inisialisasi festvox

2. Mendefinisikan fonem bahasa Melayu Pontianak

ut_my_ar_phoneset.scm di direktori ut_my_ar/festvox.

5. bulat tidaknya bibir fonem vokal Bulat (+), tidak (-)

5. Memasukan korpus rekaman

nama file yang telah didefinisikan pada file text.done.data di direktori

Pelabelan fonem pada festvox menggunakan metode ASR (Automatic

3.2.2.3 Pembuatan aturan kontekstual

3.2.3 Pelatihan HMM

Gambar 3.5 Struktur direktori hts demo

Demo HTS untuk bahasa Inggris dimodifikasi sehingga demo dapat

3. mengganti korpus rekaman suara bahasa Inggris menjadi korpus rekaman

Kode program 3.8 Pengaturan nama file pada scripts/Config.pm

Proses pelatihan HMM memerlukan beberapa jam. Waktu yang diperlukan

Gambar 3.6 model yang dihasilkan dari tahap pelatihan

Setiap file memiliki fungsi atau representasi masing-masing terhadap

3.2.4 Desain dan perancangan sistem

Gambar 3.7 Diagram alir sistem

Gambar 3.8 Diagram alir normalisasi

1. Penghapusan token tertentu

Gambar 3.9 Diagram alir penghapusan token tertentu

Tabel 3.2 Jenis token yang ditanganin oleh sistem

Penambahan spasi pada token merupakan proses menambahkan spasi baik

Gambar 3.10 Diagram alir penambahan spasi pada token tertentu

Gambar 3.11 Diagram alir konversi token

Penerapan aturan letter-to-sound merupakan proses menghasilkan

Gambar 3.12Diagram alir penerapan aturan letter-to-sound

Selain diftong dan konsonan yang terdiri atas 2 karakter, pemenggalan

“ekor” dan ǝ pada contoh kata “enak”.

3.2.4.2 Pembuatan file utterance

Gambar 3.13 Struktur direktori konfigurasi untuk bahasa Melayu dialek

File ut_my_ar_phonemset.scm dan ut_my_ar_lexicon.scm didapatkan

3.2.4.3 Pembuatan label kontekstual

3.2.4.4 Pembuatan gelombang suara

Pembuatan gelombang suara merupakan proses membunyikan teks

3.2.4.5 Arsitektur sistem

Gambar 3.14 Arsitektur Sintesa ucapan

3.2.4.6 Rancangan antarmuka sistem

Gambar 3.15 Rancangan antarmuka halaman beranda

Gambar 3.16 Rancangan Antarmuka halaman keterangan

3.2.5 Implementasi Sistem

3.2.6 Pengujian Sistem

Tabel 3.5 Skema pengujian MOS, CMOS, AB, dan WER

3.2.6.1 Pengujian Black Box

3.2.6.2 Pengujian MOS

MOS = ∑ x (i). k (3.2)

3.2.6.3 Pengujian CMOS

3.2.6.5 Pengujian WER

3.2.7 Analisi Hasil Pengujian

3.2.8 Penarikan Kesimpulan

Anda mungkin juga menyukai