Puji dan syukur penulis panjatkan ke hadirat Allah SWT. yang telah
memberikan banyak nikmat, terutama nikmat kesehatan dan kesempatan sehingga
penulis dapat menyelesaikan proposal tugas akhir yang berjudul:
“IMPLEMENTASI SINTESIS TEKS MENJADI UCAPAN
MENGGUNAKAN KORPUS BAHASA INDONESIA BERBASIS SV2TTS”
Proposal tugas akhir ini merupakan salah satu syarat yang harus ditempuh untuk
menyelesaikan Program Sarjana di Program Studi Informatika, Jurusan
Matematika dan Teknologi Informasi, Institut Teknologi Kalimantan (ITK)
Balikpapan. Untuk itu penulis mengucapkan terima kasih yang sebesar-besarnya
kepada:
1. Bapak Bima Prihasto, S.Si., M.Si., Ph.D., selaku Dosen Pembimbing Utama
dari penulis.
2. Bapak Bowo Nugroho, S.Kom., M.Eng., selaku Dosen Pembimbing
Pendamping.
3. Ibu Nisa Rizqiya Fadhliana, S.Kom., M.T. selaku Koordinator Program
Studi Informatika Jurusan Matematika dan Teknologi Informasi ITK.
4. Ibu Indira Anggraini, S.Si, M.Si. selaku Kepala Jurusan Matematika dan
Teknologi Informasi ITK.
5. Bapak Ibu Seluruh Dosen serta Tenaga Kependidikan Program Studi
Informatika Jurusan Matematika dan Teknologi Informasi ITK.
6. Serta semua pihak yang terlibat dalam penyusunan proposal tugas akhir ini.
Penulis menyadari bahwa penyusunan proposal tugas akhir ini masih jauh
dari sempurna, karena itu penulis mengharapkan segala kritik dan saran yang
membangun. Semoga tugas akhir ini dapat bermanfaat bagi kita semua. Atas
perhatiannya penulis ucapkan terima kasih.
Balikpapan, 31 Agustus 2023
Penyusun
ABSTRAK
Bab 2 berisi tinjauan Pustaka yang akan digunakan dalam penelitian Tugas
Akhir ini. Tinjauan pustaka terdiri dari dasar teori, metode yang digunakan selama
penelitian Tugas Akhir dan penelitian-penelitian sebelumnya yang menjadi
pendukung dalam penelitian ini.
2.1 Long-Short Term Memory (LSTM)
Long Short-Term Memory (LSTM) adalah jenis arsitektur Recurrent Neural
Network (RNN) yang dirancang untuk mengatasi tantangan dalam menangkap
ketergantungan jarak jauh dalam data berurutan. Arsitektur ini, sangat efektif
untuk tugas-tugas yang melibatkan urutan seperti pengenalan ucapan, pemodelan
bahasa, penerjemahan mesin, dan lainnya, diperkenalkan oleh Hochreiter dan
Schmidhuber dalam makalah mereka yang berjudul "Long Short-Term Memory"
yang diterbitkan pada tahun 1997.
Keunggulan utama dari LSTM terletak pada kemampuannya untuk
mempertahankan dan memanipulasi status sel (cell state) melintasi urutan
panjang, memungkinkan jaringan untuk menangkap informasi yang relevan dari
langkah-langkah waktu sebelumnya dan menggunakannya pada langkah-langkah
berikutnya. Ini dicapai melalui gabungan mekanisme gating yang mengatur aliran
informasi melalui jaringan. Kemampuan arsitektur LSTM untuk secara selektif
mengingat atau melupakan informasi serta mengelola hubungan temporal yang
panjang menjadikannya sangat berharga dalam tugas-tugas yang bergantung pada
data berurutan. Ia telah terbukti efektif dalam berbagai tugas pemrosesan bahasa
alami dan terkait ucapan di mana konteks dan sejarah memainkan peran penting.
Berikut alur kerja Long-Short Term Memory :
1. Input Gate
Menentukan informasi dari input saat ini 𝑥 yang harus disimpan dalam
cell state.
𝑖 = 𝜎(𝑊 𝑥 + 𝑊 ℎ − 1 + 𝑏 )
2. Forget Gate
Menentukan informasi dari cell state sebelumnya 𝐶 yang harus
dilupakan.
𝑓𝑡 = 𝜎(𝑊𝑓𝑥𝑥𝑡 + 𝑊𝑓ℎℎ𝑡 − 1 + 𝑏𝑓)
3. Cell State Candidate
Menghitung nilai kandidat 𝐶 yang bisa ditambahkan ke cell state setelah
modifikasi potensial.
𝐶 𝑡 = tanh(𝑊𝑐𝑥𝑥𝑡 + 𝑊𝑐ℎℎ𝑡 − 1 + 𝑏𝑐)
4. Cell State Update
Memperbarui status sel 𝐶 dengan menggabungkan keputusan forget
gate mengenai informasi yang harus dilupakan dan keputusan gerbang
masukan mengenai informasi yang harus ditambahkan.
𝐶𝑡 = 𝑓𝑡 ⊙ 𝐶𝑡 − 1 + 𝑖𝑡 ⊙ 𝐶
5. Output Gate
Menentukan bagian dari status sel yang akan dihasilkan sebagai hidden
state ℎ .
𝑜𝑡 = 𝜎(𝑊𝑜𝑥𝑥𝑡 + 𝑊𝑜ℎℎ𝑡 − 1 + 𝑏𝑜)
6. Hidden State
Status ini merupakan keluaran LSTM untuk langkah waktu saat ini dan
berisi informasi kontekstual.
ℎ𝑡 = 𝑜𝑡 ⊙ tanh(𝐶𝑡)
4. Linear Projection
Proyeksi ini mengubah representasi dari decoder menjadi mel
spectrogram yang mencakup atribut akustik dari ucapan yang dimaksud.
𝑆 = 𝑃𝑟𝑜𝑗𝑒𝑐𝑡𝑖𝑜𝑛(𝐷 )
𝑆 merupakan hasil dari proyeksi linear yang diterapkan pada 𝐷 ,
dan menghasilkan mel spectrogram.
2.5.1 LibriSpeech
LibriSpeech adalah sebuah proyek yang menghasilkan korpus data ucapan
besar dalam bahasa Inggris untuk keperluan penelitian pengenalan ucapan
otomatis atau Automatic Speech Recognition (ASR). Korpus ini terdiri dari
rekaman suara yang diambil dari buku-buku berlisensi domain umum dengan
durasi keseluruhan mencapai 1000 jam. Data ini memainkan peran penting dalam
mengembangkan dan menguji model ASR untuk bahasa Inggris. LibriSpeech
sendiri memiliki beberapa jenis korpus bahasa Inggris yang bisa diunduh secara
terbuka. Di antaranya yaitu train-clean-100 dengan total 100 jam yang digunakan
untuk melatih model Synthesizer, train-clean-360 dengan total 360 jam yang
digunakan untuk melatih Vocoder, serta train-other-500 dengan total 500 jam
yang digunakan untuk melatih model Encoder. Isi dari train-clean sendiri
merupakan suara yang sudah dibersihkan dari noice yang berkemungkinan
mengganggu dalam training. Sedangkan isi dari train-other merupakan suara yang
sudah diganti formatnya akan tetapi masih memiliki noice didalamnya. Dalam
penerapan SV2TTS, struktur data LibriSpeech sangat dibutuhkan dalam
melakukan training.
Kemampuan
untuk
Pendekatan menghasilkan
LOW- Masalah dalam berbasis data sintesis teks
(Goeric Hasil data
RESOURCE menghasilkan Tacotron-like augmentasi menjadi
Huybrech augmentasi yang
EXPRESSIVE sintesis ucapan yang Variation meningkatkan ucapan yang
ts, tidak selalu
TEXT-TO- mengandung variasi Auto-Encoder variasi ekspresi lebih ekspresif
4. Thomas menghasilkan
SPEECH USING ekspresi dalam with dalam sintesis dengan
Merritt, variasi ekspresi
DATA situasi ketika data Augmented ucapan, bahkan menggunakan
dkk, yang alami dan
AUGMENTATIO pelatihan yang Data dengan sumber teknik
2021) konsisten.
N tersedia terbatas. daya pelatihan augmentasi
yang terbatas. data pada data
pelatihan yang
terbatas
Penggunaan
Kemampuan
GAN
PARALLEL Metode ini untuk
memerlukan
WAVEFORM menghasilkan menghasilkan
Masalah dalam sumber daya
SYNTHESIS gelombang suara gelombang
(Ryuichi menghasilkan komputasi yang
BASED ON berkualitas tinggi suara paralel
Yamamot sintesis gelombang lebih besar dan
GENERATIVE dalam mode berkualitas
o, suara berkualitas waktu yang lebih
ADVERSARIAL Parallel paralel tinggi yang
5. Eunwoo tinggi yang lama. Selain itu,
NETWORKS WaveGAN menggunakan mengakomoda
Song, memperhatikan hasil sintesis
WITH VOICING- Generative si deteksi
dkk, deteksi dan kejelasan tetap tergantung
AWARE Adversarial suara, serta
2021) suara dalam konteks pada kualitas
CONDITIONAL Networks, dengan menghasilkan
jaringan generatif. data pelatihan
DISCRIMINATO mempertimbangk suara yang
dan arsitektur
RS an deteksi suara lebih jelas dan
model yang
alami.
digunakan.
INVESTIGATION
Pendekatan ini Kemampuan
OF ENHANCED
menghasilkan untuk
TACOTRON Penggunaan self-
Masalah dalam hasil yang lebih meningkatkan
TEXT-TO- (Yusuke attention dapat
meningkatkan baik kualitas
SPEECH Yasuda, memerlukan
kualitas sintesis dibandingkan sintesis teks
SYNTHESIS Xin Self-Attention sumber daya
6. untuk bahasa yang menggunakan menjadi
SYSTEMS WITH Wang, Tacotron komputasi yang
memiliki intonasi Tacotron biasa ucapan dalam
SELF- dkk, lebih besar dan
pitch accent yang dalam bahasa dengan
ATTENTION 2019) waktu yang lebih
kompleks. memperhatikan intonasi pitch
FOR PITCH lama.
pola intonasi yang accent yang
ACCENT
rumit. kompleks.
LANGUAGE
BAB III
METODE PENELITIAN
Pada bab ini dijelaskan tahapan dan metodologi yang akan digunakan
sebagai panduan dalam menyelesaikan penelitian tugas akhir.