Anda di halaman 1dari 22

TUGAS AKHIR

IMPLEMENTASI SINTESIS TEKS MENJADI


UCAPAN MENGGUNAKAN KORPUS BAHASA
INDONESIA BERBASIS SV2TTS

Muhammad Gozy Al Vaiz


11191051

Bima Prihasto, S.Si., M.Si., Ph.D.


Bowo Nugroho, S.Kom., M.Eng.

Program Studi Informatika


Jurusan Matematika dan Teknologi Informasi
Institut Teknologi Kalimantan
Balikpapan, 2023
LEMBAR PERSETUJUAN

Proposal Tugas Akhir dengan judul:

“IMPLEMENTASI SINTESIS TEKS MENJADI UCAPAN


MENGGUNAKAN KORPUS BAHASA INDONESIA BERBASIS SV2TTS”

Yang disusun oleh:

Muhammad Gozy Al Vaiz


NIM. 11191051

Telah diperiksa dan disetujui oleh dosen pembimbing:

Dosen Pembimbing Utama Dosen Pembimbing Pendamping

Bima Prihasto, S.Si., M.Si., Ph.D. Bowo Nugroho, S.Kom., M.Eng.


NIP. 199104232021211001 NIP.199008312020121002
KATA PENGANTAR

Puji dan syukur penulis panjatkan ke hadirat Allah SWT. yang telah
memberikan banyak nikmat, terutama nikmat kesehatan dan kesempatan sehingga
penulis dapat menyelesaikan proposal tugas akhir yang berjudul:
“IMPLEMENTASI SINTESIS TEKS MENJADI UCAPAN
MENGGUNAKAN KORPUS BAHASA INDONESIA BERBASIS SV2TTS”
Proposal tugas akhir ini merupakan salah satu syarat yang harus ditempuh untuk
menyelesaikan Program Sarjana di Program Studi Informatika, Jurusan
Matematika dan Teknologi Informasi, Institut Teknologi Kalimantan (ITK)
Balikpapan. Untuk itu penulis mengucapkan terima kasih yang sebesar-besarnya
kepada:
1. Bapak Bima Prihasto, S.Si., M.Si., Ph.D., selaku Dosen Pembimbing Utama
dari penulis.
2. Bapak Bowo Nugroho, S.Kom., M.Eng., selaku Dosen Pembimbing
Pendamping.
3. Ibu Nisa Rizqiya Fadhliana, S.Kom., M.T. selaku Koordinator Program
Studi Informatika Jurusan Matematika dan Teknologi Informasi ITK.
4. Ibu Indira Anggraini, S.Si, M.Si. selaku Kepala Jurusan Matematika dan
Teknologi Informasi ITK.
5. Bapak Ibu Seluruh Dosen serta Tenaga Kependidikan Program Studi
Informatika Jurusan Matematika dan Teknologi Informasi ITK.
6. Serta semua pihak yang terlibat dalam penyusunan proposal tugas akhir ini.
Penulis menyadari bahwa penyusunan proposal tugas akhir ini masih jauh
dari sempurna, karena itu penulis mengharapkan segala kritik dan saran yang
membangun. Semoga tugas akhir ini dapat bermanfaat bagi kita semua. Atas
perhatiannya penulis ucapkan terima kasih.
Balikpapan, 31 Agustus 2023
Penyusun

Muhammad Gozy Al Vaiz


IMPLEMENTASI SINTESIS TEKS MENJADI
UCAPAN MENGGUNAKAN KORPUS BAHASA
INDONESIA BERBASIS SV2TTS
Nama Mahasiswa : Muhammad Gozy Al Vaiz
NIM : 11191051
Dosen Pembimbing Utama : Bima Prihasto, S.Si., M.Si., Ph.D.
Pembimbing Pendamping : Bowo Nugroho, S.Kom., M.Eng.

ABSTRAK

Kemajuan teknologi pemrosesan bahasa alami dan kecerdasan buatan telah


memberikan dampak signifikan terhadap sintesis suara. Salah satu perkembangan
penting adalah implementasi sintesis teks menjadi ucapan, di mana teks tertulis
diubah menjadi ucapan yang alami. Penelitian ini fokus pada penerapan teknologi
tersebut dalam bahasa Indonesia dengan memanfaatkan korpus bahasa Indonesia
yang komprehensif dan berbasis SV2TTS (Speaker Verification to Text-to-
Speech). Pendekatan ini melibatkan penggunaan Speaker Encoder Network,
Tacotron 2, dan Auto-Regressive WaveNet-based Vocoder Network. Teknologi ini
memungkinkan penciptaan suara yang tidak hanya menggambarkan konten teks
secara akurat, tetapi juga mempertahankan karakteristik khas dari suara pembicara
tertentu. Dengan melatih model pada korpus teks bahasa Indonesia yang luas,
hasilnya diharapkan mampu menghasilkan ucapan berkualitas tinggi, kontekstual,
dan sesuai budaya. Melalui implementasi sintesis teks menjadi ucapan dalam
bahasa Indonesia menggunakan pendekatan SV2TTS dan jaringan yang
disebutkan, peluang untuk menciptakan aplikasi canggih yang memenuhi
kebutuhan pengguna Indonesia di berbagai sektor dapat diwujudkan. Teknologi
ini memberikan jalan untuk meningkatkan pendidikan, hiburan, aksesibilitas, dan
komunikasi, serta memberikan kontribusi pada perkembangan teknologi bahasa
secara lebih luas di Indonesia.

Kata Kunci: synthesis text-to-speech, sintesis teks-menjadi-ucapan, SV2TTS,


korpus Bahasa Indonesia.
BAB I
PENDAHULUAN

Bab ini menjelaskan mengenai latar belakang, rumusan masalah, tujuan,


manfaat, serta kerangka pemikiran dari dilakukannya penelitian penerapan sintesis
text-to-speech. Dari uraian pada bab ini diharapkan gambaran umum
permasalahan dan penyelesaian masalah dalam penelitian ini dapat dipahami.

1.1 Latar Belakang


Kemajuan pesat dalam pemrosesan bahasa alami dan kecerdasan buatan
telah membawa kemajuan yang luar biasa dalam bidang sintesis suara. Salah satu
area penelitian yang menonjol adalah implementasi sintesis teks menjadi ucapan,
di mana teks tertulis diubah menjadi ucapan yang alami dan mirip suara manusia.
Teknologi ini memiliki berbagai aplikasi, dari teknologi bantu bagi individu
dengan gangguan penglihatan, penciptaan asisten suara yang personal, hingga
peningkatan pengalaman pengguna dalam konten multimedia. Adapun contoh
unik pemanfaatan sintesis suara yang sering digunakan yaitu penggunaan model
suara presiden Indonesia untuk membawakan suatu lagu dan dapat berbincang
dengan orang lain.
Di Indonesia sendiri, pemanfaatan sintesis teks menjadi ucapan menawarkan
peluang dan tantangan unik. Kekayaan dan keragaman bahasa Indonesia
memerlukan pendekatan yang disesuaikan untuk memastikan pelafalan yang
akurat, intonasi yang tepat, serta nuansa budaya dalam ucapan yang dihasilkan.
Dalam hal mengatasi tantangan ini dan membuka potensi penuh sintesis teks
menjadi ucapan untuk bahasa Indonesia, para peneliti telah menjelajahi teknik-
teknik inovatif. Salah satu pendekatan yang semakin mendapat perhatian adalah
pemanfaatan korpus bahasa Indonesia yang komprehensif, yang dikombinasikan
dengan teknologi SV2TTS (Speaker Verification to Text-to-Speech). SV2TTS
memungkinkan sintesis ucapan yang tidak hanya menggambarkan konten teks
dengan akurat, tetapi juga mempertahankan karakteristik khas dari suara seorang
pembicara tertentu. Dengan melatih model pada korpus teks bahasa Indonesia
yang besar dan memanfaatkan SV2TTS, para peneliti bertujuan untuk
mengembangkan sistem sintesis teks menjadi ucapan yang canggih, mampu
menghasilkan keluaran yang berkualitas tinggi, relevan secara kontekstual, dan
sesuai keragaman budaya.
Melalui implementasi sintesis teks menjadi ucapan menggunakan korpus
bahasa Indonesia berbasis SV2TTS, potensi untuk menciptakan aplikasi canggih
yang melayani kebutuhan pengguna Indonesia di berbagai bidang dapat
direalisasikan. Teknologi ini memiliki harapan untuk memperkaya pendidikan,
hiburan, aksesibilitas, dan komunikasi, sambil memberikan kontribusi pada
lanskap yang lebih luas dalam pengembangan teknologi bahasa di Indonesia.

1.2 Perumusan Masalah


Berdasarkan latar belakang yang telah diuraikan, maka didapatkan rumusan
masalah sebagai berikut:
1. Bagaimana mendapatkan kumpulan teks Bahasa Indonesia yang diperlukan
untuk implementasi sintesis teks menjadi ucapan ?
2. Bagaimana hasil akurasi model yang dibuat berbasis SV2TTS dengan
menggunakan korpus Bahasa Indonesia?
3. Bagaimana melakukan pengujian implementasi sintesis teks menjadi ucapan
dengan pelafalan masyarakat Indonesia?

1.3 Tujuan Penelitian


Berdasarkan perumusan masalah, tujuan dari dilakukannya penelitian ini
adalah sebagai berikut:
1. Mencari dan menyunting Kumpulan teks Bahasa Indonesia yang diperlukan
untuk implementasi sintesis teks menjadi ucapan.
2. Melakukan evaluasi nilai akurasi model yang dibuat berbasis SV2TTS
dengan menggunakan korpus Bahasa Indonesia.
3. Melakukan pengujian implementasi sintesis teks menjadi ucapan dengan
pelafalan salah satu suku di Indonesia.
1.4 Manfaat Penelitian
Adapun manfaat dari dilakukannya penelitian ini adalah sebagai berikut:
1. Kemajuan pada bidang teknologi sintesis teks menjadi ucapan di Indonesia.
Kemajuan pada bidang ini membawa potensi baru untuk menciptakan
ucapan yang lebih alami dalam Bahasa Indonesia.
2. Peningkatan pengalaman pengguna serta aksesibilitas di berbagai bidang.
Teknologi ini mampu membantu individu dengan gangguan pengelihatan
untuk menyediakan akses ke konten tertulis menjadi ucapan.

1.5 Batasan Masalah


Adapun batasan masalah pada penelitian ini adalah sebagai berikut:
1. Encoder, Synthesizer, dan Vocoder tetap menggunakan Baseline Bahasa
Inggris sebagai pembanding untuk model terbaru.
2. Penggunaan korpus Bahasa Indonesia hanya dilakukan pada Synthesizer,
Encoder dan Vocoder tetap pada baseline Bahasa Inggris.
3. Dataset korpus Bahasa Indonesia kurang lebih selama 5 Jam berupa file
dengan format “.wav” dengan struktur LibriSpeech.
4. Menggunakan Subjective dan Objective Evaluation untuk melakukan
pengujian implementasi sintesis teks menjadi ucapan.
1.6 Kerangka Pemikiran
Pada penelitian ini diagram kerangka pemikiran yang digunakan adalah
fishbone untuk memahami alur pemikiran serta penyebab dilakukannya penelitian
seperti yang ditunjukkan pada Gambar 1.1.

Gambar 1.1 Kerangka Pemikiran


Gambar 1.1 menunjukkan kerangka pemikiran yang memperlihatkan inti
dari masalah serta alur pikir dilakukannya penelitian. Terdapat 4 faktor utama
yang mendasari penelitian ini yaitu Man, Material, Method, dan Machine. Pada
faktor man ditunjukkan bahwa Kesadaran untuk implementasi dan pengetahuan
terkait sintesis teks ke ucapan masih kurang. Pada faktor material ditunjukkan
bahwa basis data terkait korpus Bahasa Indonesia yang dapat diakses secara bebas
masih sedikit. Pada faktor Method ditunjukkan bahwa penggunaan metode
pendekatan sintesis teks menjadi ucapan menggunakan korpus Bahasa Indonesia
belum dapat dibuktikan efektivitasnya. Kemudian pada faktor machine
ditunjukkan bahwa sintesis teks menjadi ucapat menggunakan korpus Bahasa
Indonesia masih harus dilakukan penelitian lebih lanjut. Dari 4 faktor tersebut
disimpulkan bahwa masalah yang dihadapi adalah belum adanya penelitian lebih
lanjut terkait sintesis teks ke ucapan menggunakan korpus Bahasa Indonesia.
BAB II
TINJAUAN PUSTAKA

Bab 2 berisi tinjauan Pustaka yang akan digunakan dalam penelitian Tugas
Akhir ini. Tinjauan pustaka terdiri dari dasar teori, metode yang digunakan selama
penelitian Tugas Akhir dan penelitian-penelitian sebelumnya yang menjadi
pendukung dalam penelitian ini.
2.1 Long-Short Term Memory (LSTM)
Long Short-Term Memory (LSTM) adalah jenis arsitektur Recurrent Neural
Network (RNN) yang dirancang untuk mengatasi tantangan dalam menangkap
ketergantungan jarak jauh dalam data berurutan. Arsitektur ini, sangat efektif
untuk tugas-tugas yang melibatkan urutan seperti pengenalan ucapan, pemodelan
bahasa, penerjemahan mesin, dan lainnya, diperkenalkan oleh Hochreiter dan
Schmidhuber dalam makalah mereka yang berjudul "Long Short-Term Memory"
yang diterbitkan pada tahun 1997.
Keunggulan utama dari LSTM terletak pada kemampuannya untuk
mempertahankan dan memanipulasi status sel (cell state) melintasi urutan
panjang, memungkinkan jaringan untuk menangkap informasi yang relevan dari
langkah-langkah waktu sebelumnya dan menggunakannya pada langkah-langkah
berikutnya. Ini dicapai melalui gabungan mekanisme gating yang mengatur aliran
informasi melalui jaringan. Kemampuan arsitektur LSTM untuk secara selektif
mengingat atau melupakan informasi serta mengelola hubungan temporal yang
panjang menjadikannya sangat berharga dalam tugas-tugas yang bergantung pada
data berurutan. Ia telah terbukti efektif dalam berbagai tugas pemrosesan bahasa
alami dan terkait ucapan di mana konteks dan sejarah memainkan peran penting.
Berikut alur kerja Long-Short Term Memory :
1. Input Gate
Menentukan informasi dari input saat ini 𝑥 yang harus disimpan dalam
cell state.
𝑖 = 𝜎(𝑊 𝑥 + 𝑊 ℎ − 1 + 𝑏 )
2. Forget Gate
Menentukan informasi dari cell state sebelumnya 𝐶 yang harus
dilupakan.
𝑓𝑡 = 𝜎(𝑊𝑓𝑥𝑥𝑡 + 𝑊𝑓ℎℎ𝑡 − 1 + 𝑏𝑓)
3. Cell State Candidate
Menghitung nilai kandidat 𝐶 yang bisa ditambahkan ke cell state setelah
modifikasi potensial.
𝐶 𝑡 = tanh(𝑊𝑐𝑥𝑥𝑡 + 𝑊𝑐ℎℎ𝑡 − 1 + 𝑏𝑐)
4. Cell State Update
Memperbarui status sel 𝐶 dengan menggabungkan keputusan forget
gate mengenai informasi yang harus dilupakan dan keputusan gerbang
masukan mengenai informasi yang harus ditambahkan.
𝐶𝑡 = 𝑓𝑡 ⊙ 𝐶𝑡 − 1 + 𝑖𝑡 ⊙ 𝐶
5. Output Gate
Menentukan bagian dari status sel yang akan dihasilkan sebagai hidden
state ℎ .
𝑜𝑡 = 𝜎(𝑊𝑜𝑥𝑥𝑡 + 𝑊𝑜ℎℎ𝑡 − 1 + 𝑏𝑜)
6. Hidden State
Status ini merupakan keluaran LSTM untuk langkah waktu saat ini dan
berisi informasi kontekstual.
ℎ𝑡 = 𝑜𝑡 ⊙ tanh(𝐶𝑡)

2.2 Speaker Encoder Network


Speaker Encoder Network atau Jaringan Pengkode Pembicara adalah jenis
jaringan saraf yang dirancang untuk membuat embedding vector atau representasi
berdimensi tetap dari identitas pembicara dari data audio. Embedding vector ini
menangkap karakteristik unik suara seorang pembicara, memungkinkan jaringan
untuk membedakan antara pembicara yang berbeda. Representasi ini kemudian
dapat digunakan dalam berbagai aplikasi, seperti konversi suara, verifikasi
pembicara, dan adaptasi suara. Metode ini digunakan untuk menghasilkan
embedding vector pembicara berkualitas tinggi untuk sintesis TTS
multipembicara. Jaringan pengkode pembicara dilatih pada tugas verifikasi
pembicara menggunakan dataset besar ucapan berisik. Representasi pembicara
yang dihasilkan kemudian dapat digunakan untuk mengkondisikan model TTS
agar menghasilkan ucapan dengan suara dari berbagai pembicara, bahkan yang
belum pernah ditemui selama pelatihan.
Berikut alur kerja Speaker Encoder Network:
1. Input Data
Masukan ke dalam jaringan biasanya berupa urutan fitur suara, seperti
log-mel spectrogram frames, yang dinyatakan sebagai 𝑋
2. LSTM Layer
Masukan 𝑋 diproses melalui tumpukan lapisan LSTM untuk menangkap
sequential dependencies dan mengekstrak informasi kontekstual. Setiap
lapisan LSTM disimbolkan sebagai 𝐿𝑆𝑇𝑀 , dengan 𝑖 sebagai index
layer.
3. Hidden States
Hidden states ℎ dari lapisan LSTM dihitung melalui setiap lapisan:
 ℎ = 𝐿𝑆𝑇𝑀 (𝑋)
 ℎ = 𝐿𝑆𝑇𝑀 (ℎ ), untuk 𝑖 = 1, 2, … , 𝑛
4. Projection to Speaker Embedding
Hidden state terakhir ℎ diproyeksikan ke ruang embedding pembicara
menggunakan transformasi linear:
 𝐸 = 𝑃𝑟𝑜𝑗𝑒𝑐𝑡𝑖𝑜𝑛(ℎ )
5. Speaker Embedding
Output 𝐸 adalah embedding pembicara yang dipelajari yang menangkap
karakteristik unik dari suara pembicara.

2.3 Sequence-to-Sequence Synthesis Network (Tacotron 2-based)


Sequence-to-Sequence Synthesis Network (Tacotron 2-based) atau Jaringan
Sintesis Urutan-ke-Urutan (berbasis Tacotron 2) adalah jenis jaringan saraf yang
dirancang untuk menghasilkan spektrogram mel dari teks masukan. Metode ini
memungkinkan konversi teks menjadi bentuk representasi audio yang dapat
diubah menjadi gelombang suara yang terdengar. Jaringan ini memperhatikan
keterkaitan urutan antara karakter dalam teks dengan spektrogram mel yang
dihasilkan, sehingga menghasilkan hasil yang lebih alami dan terdengar seperti
ucapan manusia. Tacotron 2 merupakan pengembangan dari model Tacotron
sebelumnya, yang mampu menghasilkan spektrogram mel yang lebih baik dari
teks. Jaringan ini terdiri dari beberapa lapisan dan bagian, termasuk pengkode
karakter, penyandian konteks, dan sintesis spektrogram. Teknik pembelajaran
mendalam memungkinkan Tacotron 2 untuk memahami hubungan kompleks
antara teks dan spektrogram mel, sehingga menghasilkan suara yang lebih alami
dan ekspresif. Representasi pembicara yang diperoleh dari jaringan pengkode
pembicara dapat dikondisikan pada model Tacotron 2 untuk menghasilkan
spektrogram mel yang sesuai dengan karakteristik suara pembicara yang
diinginkan.
Berikut alur kerja Sequence-to-Sequence Synthesis Network :
1. Encoder
Urutan 𝐻 yang dihasilkan oleh encoder mengandung informasi
kontekstual dari masukan akustik. Ini berisi petunjuk penting yang
diperlukan untuk menghasilkan ucapan yang sesuai.
 𝐻 = 𝐸𝑛𝑐𝑜𝑑𝑒𝑟 (𝑋),
 𝐻 mewakili informasi kontekstual yang diekstraksi dari masukan
𝑋.
2. Attention Mechanism
Mekanisme ini memiliki fungsi krusial dalam menentukan seberapa
besar fokus yang harus diberikan oleh decoder pada detail kontekstual
dari 𝐻 untuk setiap langkah waktu. Ini memberdayakan decoder untuk
lebih menekankan aspek penting dari konteks.
 𝐴 = 𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝐻, 𝑆 )
 𝐴 adalah distribusi perhatian yang memberikan bobot untuk
setiap frame di 𝐻 berdasarkan relevansinya terhadap keluaran
sebelumnya 𝑆 .
3. Decoder LSTM
Jaringan ini secara bertahap menghasilkan representasi yang lebih
kompleks dan kaya konteks seiring dengan kemajuan dalam proses
pembangkitan ucapan. Ini memungkinkan jaringan untuk membuat
keputusan yang terinformasi dalam menghasilkan spektrogram mel yang
sesuai.
 𝐷 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟𝐿𝑆𝑇𝑀(𝐷 , [𝐶 ; 𝐴]).
 𝐷 menggambarkan hidden states dari LSTM decoder ke-𝑖.
 [𝐶 ; 𝐴] mencerminkan conditional vector yang dihasilkan dengan
menggabungkan konten akustik 𝐶 dan distribusi attention 𝐴
Pengenalan konkatenasi, di mana vektor kondisioning [𝐶 ; 𝐴] terbentuk
dengan menggabungkan konten akustik 𝐶 dan distribusi perhatian 𝐴,
meningkatkan kemampuan jaringan untuk mengondisikan ucapan yang
dihasilkan berdasarkan atribut akustik dan konteks.

4. Linear Projection
Proyeksi ini mengubah representasi dari decoder menjadi mel
spectrogram yang mencakup atribut akustik dari ucapan yang dimaksud.
 𝑆 = 𝑃𝑟𝑜𝑗𝑒𝑐𝑡𝑖𝑜𝑛(𝐷 )
 𝑆 merupakan hasil dari proyeksi linear yang diterapkan pada 𝐷 ,
dan menghasilkan mel spectrogram.

2.4 Auto-Regressive Vocoder Network (WaveNet-based)


Auto-Regressive Vocoder Network (WaveNet-based) atau Jaringan Vocoder
regresif otomatis (berbasis WaveNet) adalah jenis jaringan saraf yang dirancang
untuk mengubah representasi spektrogram mel menjadi gelombang suara domain
waktu. Metode ini memanfaatkan sifat otoregresif, di mana setiap sampel dalam
gelombang suara dihasilkan secara berurutan, tergantung pada sampel
sebelumnya. Pendekatan ini memungkinkan jaringan untuk menangkap
ketergantungan temporal kompleks dalam data audio, menghasilkan suara yang
lebih alami dan berkualitas tinggi. WaveNet merupakan sebuah model generatif
yang mampu menghasilkan audio gelombang suara secara langsung. Jaringan ini
memiliki arsitektur otoregresif yang memungkinkannya untuk menghasilkan
setiap sampel audio dengan mempertimbangkan sampel sebelumnya. Hal ini
memungkinkan WaveNet untuk menangkap ketergantungan temporal yang
kompleks dalam data audio dan menghasilkan suara yang lebih alami daripada
pendekatan tradisional. Representasi spektrogram mel yang dihasilkan dari
jaringan Tacotron 2 dapat diubah menjadi gelombang suara yang terdengar
dengan memasukkannya ke dalam jaringan WaveNet berbasis otoregresif. Proses
ini menghasilkan suara yang menyerupai suara manusia dengan kualitas tinggi
dan detil yang lebih baik.
Berikut alur kerja Auto-Regressive Vocoder Network :
1. Dilated Convolutional Layers
Layer ini membentuk struktur dasar dari arsitektur jaringan ini. Mereka
memungkinkan ekspansi dari lapangan resptif, memungkinkan jaringan
untuk menangkap ketergantungan jarak jauh dalam spektrogram mel
masukan.
 𝑋 = DilatedConv(𝑋 )
 𝑋 adalah keluaran dari lapisan konvolusi dilatasi ke-𝑖 yang
diterapkan pada keluaran sebelumnya 𝑋 .
2. Gated Activation Function
Fungsi ini memperkenalkan non-linearitas dan konteks ke dalam sinyal
yang dihasilkan, memfasilitasi transformasi spektrogram mel menjadi
sampel gelombang suara yang membawa ciri-ciri ucapan alami.
 𝑌 = 𝐺𝑎𝑡𝑒𝑑𝐴𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛(𝑋 )
 𝑌 merupakan keluaran dari Gated Activation Function yang
diterapkan pada 𝑋 memperkenalkan non-linearitas dan konteks
ke dalam sinyal yang dihasilkan.
3. Autoregressive Generation Process
Proses generasi auto-regressive memastikan bahwa setiap sampel
gelombang suara dihasilkan berdasarkan sampel yang telah dihasilkan
sebelumnya, mensimulasikan perkembangan alami ucapan seiring
waktu.
 Sampel gelombang suara 𝑊 pada langkah waktu 𝑡 dihasilkan
berdasarkan proses generasi auto-regressive menggunakan
sampel yang telah dihasilkan sebelumnya dan keluaran jaringan.
2.5 Korpus Bahasa Indonesia
Korpus Bahasa Indonesia merupakan sebuah kumpulan teks tertulis atau
lisan dalam bahasa Indonesia yang dikumpulkan dan disusun dalam bentuk
database atau koleksi yang dapat digunakan untuk tujuan analisis bahasa dan
linguistik. Korpus ini berfungsi sebagai sumber data yang digunakan untuk
mempelajari struktur bahasa, variasi linguistik, serta fenomena bahasa dalam
konteks kehidupan sehari-hari. Korpus Bahasa Indonesia mencakup berbagai jenis
teks, seperti artikel, berita, buku, transkripsi percakapan, situs web, dan banyak
lagi. Data dalam korpus ini dapat diambil dari berbagai sumber, termasuk media
cetak, media online, literatur, serta transkripsi rekaman percakapan.

2.5.1 LibriSpeech
LibriSpeech adalah sebuah proyek yang menghasilkan korpus data ucapan
besar dalam bahasa Inggris untuk keperluan penelitian pengenalan ucapan
otomatis atau Automatic Speech Recognition (ASR). Korpus ini terdiri dari
rekaman suara yang diambil dari buku-buku berlisensi domain umum dengan
durasi keseluruhan mencapai 1000 jam. Data ini memainkan peran penting dalam
mengembangkan dan menguji model ASR untuk bahasa Inggris. LibriSpeech
sendiri memiliki beberapa jenis korpus bahasa Inggris yang bisa diunduh secara
terbuka. Di antaranya yaitu train-clean-100 dengan total 100 jam yang digunakan
untuk melatih model Synthesizer, train-clean-360 dengan total 360 jam yang
digunakan untuk melatih Vocoder, serta train-other-500 dengan total 500 jam
yang digunakan untuk melatih model Encoder. Isi dari train-clean sendiri
merupakan suara yang sudah dibersihkan dari noice yang berkemungkinan
mengganggu dalam training. Sedangkan isi dari train-other merupakan suara yang
sudah diganti formatnya akan tetapi masih memiliki noice didalamnya. Dalam
penerapan SV2TTS, struktur data LibriSpeech sangat dibutuhkan dalam
melakukan training.

2.5.2 Dataset TITML-IDN


TITML atau Tokyo Institute of Technology Multilingual Speech Corpus
Indonesia merupakan korpus ucapan berimbang secara fonetik Bahasa Indonesia.
Korpus ini dikembangkan untuk melatih model akustik dari sistem pengenalan
ucapan otomatis. Basis data ini berisi data ucapan dalam Bahasa Indonesia dari 20
pembicara Indonesia (11 laki-laki dan 9 perempuan). Setiap pembicara diminta
untuk membaca 343 kalimat berimbang secara fonetik yang dipilih dari korpus
teks dengan total durasi 13.5 Jam. Dalam Upaya menyesuaikan penggunaan
dataset yang didasarkan pada Librispeech, diperlukan beberapa perubahan pada
struktur dataset TITML yaitu berupa nama file, destinasi, id pembicara, dan teks
pembicara.
Tabel 2.x TITML-IDN Speakers
Male Speakers Female Speakers
speaker_id age tribe speaker_id age tribe
2001 23 Melayu 1001 25 Sundanese
2002 23 Batak 1002 24 Sundanese
2003 26 Sundanese 1003 25 Sundanese
2004 26 Javanese 1004 23 Batak
2005 28 Sundanese 1005 22 Sundanese
2006 30 Javanese 1006 35 Madurese
2007 30 Melayu 1007 22 Javanese
2008 26 Minang 1008 25 Sundanese
2009 25 Sundanese 1009 24 Sundanese
2010 22 Minang
2011 26 Sundanese

2.5.3 Dataset ASR-INDOCSC


ASR-INDOCSC adalah singkatan dari "Automatic Speech Recognition for
Indonesian Conversational Speech Corpus" atau Pengenalan Ucapan Otomatis
untuk Korpus Ucapan Percakapan Bahasa Indonesia. Ini merujuk pada proyek
atau sistem tertentu yang terkait dengan pengembangan teknologi pengenalan
ucapan otomatis (ASR) untuk bahasa Indonesia menggunakan data ucapan
percakapan. Proyek ASR-INDOCSC kemungkinan melibatkan pengumpulan,
penulisan transkripsi, dan pengolahan data ucapan percakapan dalam bahasa
Indonesia untuk membangun sistem ASR yang dapat mengonversi bahasa
Indonesia yang diucapkan dengan akurat menjadi teks tertulis. Kumpulan data ini
terdiri dari 4.54 jam percakapan berbahasa Indonesia yang telah ditranskripsi
tentang topik-topik tertentu, di mana terdapat tujuh percakapan antara dua pasang
pembicara. Dalam Upaya menyesuaikan penggunaan dataset yang didasarkan
pada Librispeech, diperlukan beberapa perubahan pada struktur dataset ASR-
INDOCSC yaitu berupa nama file, destinasi, id pembicara, teks pembicara, serta
pemotongan setiap kalimat pada audio untuk menjadi dataset yang baru.
Tabel 2.x ASR-INDOCSC Speakers
Male Speakers Female Speakers
speaker_id age tribe speaker_id age tribe
2101 23 Javanese 1101 23 Javanese
2102 25 Javanese 1102 21 Javanese

2.6 Penelitian Sebelumnya


Penelitian sebelumnya digunakan sebagai referensi dalam implementasi
sintesis teks ke ucapan menggunakan korpus bahasa Indonesia berbasis SV2TTS.
Dari beberapa penelitian tersebut, diketahui bahwa sintesis teks ke ucapan
menggunakan bahasa inggris sudah banyak dilakukan. Tetapi sangat sedikit
penelitian yang dilakukan pada bidang teknologi sintesis teks menjadi ucapan
dengan bahasa Indonesia. Kemajuan pada bidang ini dapat membawa potensi baru
untuk menciptakan ucapan yang lebih alami dalam Bahasa Indonesia. Beberapa
penelitian terdahulu yang digunakan sebagai acuan dirangkum dalam Tabel 2.x.
Tabel 2.x Penelitian Terdahulu
Peneliti
No. Judul Penelitian dan Permasalahan Metode Hasil Penelitian Kelebihan Kekurangan
Tahun
Metode konvensional
Kemampuan
sintesis teks menjadi
untuk
(Ye Jia, ucapan cenderung Model ini mampu Efektivitas
Transfer Learning menghasilkan
Yu kesulitan dalam menghasilkan pendekatan ini
from Speaker ucapan dalam
Zhang, menangkap ucapan alami mungkin masih
Verification to suara beberapa
1. Ron J. karakteristik unik SV2TTS dalam suara tergantung pada
Multispeaker Text- pembicara,
Weiss., dari berbagai pembicara yang ketersediaan dan
To-Speech termasuk
dkk, pembicara, yang tidak ada dalam keragaman data
Synthesis mereka yang
2018) menghasilkan ucapan data pelatihan. pelatihan.
tidak dikenali
yang terdengar tidak
sebelumnya.
alami.

Dengan Kemampuan Jaringan


menggunakan untuk generatif seperti
Masalah dalam
NATURAL TTS (Jonathan mel-spektrogram menghasilkan WaveNet
menghasilkan ucapan
SYNTHESIS BY Shen, sebagai kondisi ucapan yang cenderung
yang terdengar lebih
CONDITIONING Ruoming Generative untuk jaringan lebih alami membutuhkan
alami dan mengikuti
2. WAVENET ON Pang, Ron WaveNet generatif, dan lebih sumber daya dan
informasi
MEL J. Weiss., Network pendekatan ini kohesif dengan waktu yang lebih
kontekstual dalam
SPECTROGRAM dkk, menghasilkan informasi mel- banyak untuk
bentuk mel-
PREDICTIONS 2018) suara yang lebih spektrogram melatih dan
spektrogram.
mirip dengan menghasilkan
suara manusia. sintesis ucapan
Pendekatan
ENHANCING Penggunaan data
berbasis graf dan
SPEAKING Kemampuan multi-modal dan
multi-modal
STYLES IN untuk pendekatan graf
memungkinkan
CONVERSATIO Masalah dalam meningkatkan bisa
(Jingbei model untuk
NAL TEXT-TO- meningkatkan variasi variasi dan membutuhkan
Li1, Yi memahami
SPEECH dan keaslian dalam keaslian gaya sumber daya
3. Meng1, DialogueGCN konteks lebih
SYNTHESIS gaya berbicara yang berbicara komputasi yang
dkk, baik,
WITH GRAPH- dihasilkan oleh dalam sintesis lebih besar dan
2022) menghasilkan
BASED MULTI- sistem sintesis. teks menjadi waktu yang lebih
ucapan yang lebih
MODAL ucapan lama untuk
alami dan sesuai
CONTEXT percakapan. pelatihan dan
dengan situasi
MODELING operasionalisasi.
percakapan.

Kemampuan
untuk
Pendekatan menghasilkan
LOW- Masalah dalam berbasis data sintesis teks
(Goeric Hasil data
RESOURCE menghasilkan Tacotron-like augmentasi menjadi
Huybrech augmentasi yang
EXPRESSIVE sintesis ucapan yang Variation meningkatkan ucapan yang
ts, tidak selalu
TEXT-TO- mengandung variasi Auto-Encoder variasi ekspresi lebih ekspresif
4. Thomas menghasilkan
SPEECH USING ekspresi dalam with dalam sintesis dengan
Merritt, variasi ekspresi
DATA situasi ketika data Augmented ucapan, bahkan menggunakan
dkk, yang alami dan
AUGMENTATIO pelatihan yang Data dengan sumber teknik
2021) konsisten.
N tersedia terbatas. daya pelatihan augmentasi
yang terbatas. data pada data
pelatihan yang
terbatas
Penggunaan
Kemampuan
GAN
PARALLEL Metode ini untuk
memerlukan
WAVEFORM menghasilkan menghasilkan
Masalah dalam sumber daya
SYNTHESIS gelombang suara gelombang
(Ryuichi menghasilkan komputasi yang
BASED ON berkualitas tinggi suara paralel
Yamamot sintesis gelombang lebih besar dan
GENERATIVE dalam mode berkualitas
o, suara berkualitas waktu yang lebih
ADVERSARIAL Parallel paralel tinggi yang
5. Eunwoo tinggi yang lama. Selain itu,
NETWORKS WaveGAN menggunakan mengakomoda
Song, memperhatikan hasil sintesis
WITH VOICING- Generative si deteksi
dkk, deteksi dan kejelasan tetap tergantung
AWARE Adversarial suara, serta
2021) suara dalam konteks pada kualitas
CONDITIONAL Networks, dengan menghasilkan
jaringan generatif. data pelatihan
DISCRIMINATO mempertimbangk suara yang
dan arsitektur
RS an deteksi suara lebih jelas dan
model yang
alami.
digunakan.
INVESTIGATION
Pendekatan ini Kemampuan
OF ENHANCED
menghasilkan untuk
TACOTRON Penggunaan self-
Masalah dalam hasil yang lebih meningkatkan
TEXT-TO- (Yusuke attention dapat
meningkatkan baik kualitas
SPEECH Yasuda, memerlukan
kualitas sintesis dibandingkan sintesis teks
SYNTHESIS Xin Self-Attention sumber daya
6. untuk bahasa yang menggunakan menjadi
SYSTEMS WITH Wang, Tacotron komputasi yang
memiliki intonasi Tacotron biasa ucapan dalam
SELF- dkk, lebih besar dan
pitch accent yang dalam bahasa dengan
ATTENTION 2019) waktu yang lebih
kompleks. memperhatikan intonasi pitch
FOR PITCH lama.
pola intonasi yang accent yang
ACCENT
rumit. kompleks.
LANGUAGE
BAB III
METODE PENELITIAN

Pada bab ini dijelaskan tahapan dan metodologi yang akan digunakan
sebagai panduan dalam menyelesaikan penelitian tugas akhir.

3.1 Garis Besar Penelitian


Penelitian dilakukan untuk pembuktian efektivitas implementasi sintesis
teks menjadi ucapan menggunakan korpus Bahasa Indonesia berbasis SV2TTS.
Tahapan kedua adalah literature review atau pengkajian dan pengumpulan
referensi berupa jurnal, buku, tesis, dan lainnya terkait dengan penelitian yang
akan dilakukan. Tahapan selanjutnya adalah data collection berupa korpus Bahasa
Indonesia berupa teks dan suara yang sesuai. Tahapan keempat adalah Pre-
Processing yaitu melakukan pemrosesan terhadap data teks untuk menangani
variasi linguistik, tokenisasi, dan normalisasi, serta disinkronkan dengan rekaman
suara yang seluruh strukturnya sudah diubah menggunakan LibriSpeech. Tahapan
kelima adalah Training Synthesizer yaitu melakukan pelatihan Sequence-to-
Sequence Synthesis menggunakan data yang telah diproses. Tahapan keenam
adalah Model Integration yang merupakan tahapan penggabungan ketiga model
yaitu Encoder, Synthesizer, dan Vocoder untuk menciptakan sistem sintesis teks
ke ucapan. Tahapan ketujuh adalah Model Evaluation yang merupakan proses
evaluasi hasil suara yang dihasilkan menggunakan pendekatan objektif seperti
Mean Opinion Score (MOS), dan evaluasi secara subjektif dengan melakukan
survei perbandingan suara. Tahapan kedelapan adalah Result Analysis yaitu
menganalisa hasil evaluasi untuk menentukan efektivitas sistem sintesis teks ke
ucapan yang dilakukan dengan mengidentifikasi kelebihan dan area yang perlu
ditingkatkan. Tahapan kesembilan adalah Conclution yang merupakan tahapan
berisikan ringkasan dari sistem sintesis teks ke ucapan yang dibuat. Tahapan ini
juga membahas tentang luaran serta implikasi sistem yang dibuat. Tahapan
terakhir adalah Future Works yaitu pengusulan potensi bidang penelitian dan
perbaikan di masa depan. Seperti menyempurnakan proses sintesis teks ke ucapan.
3.2 Diagram Alir Penelitian
Implementasi sintesis teks ke ucapan menggunakan korpus Bahasa
Indonesia berbasis SV2TTS dilakukan sesuai dengan diagram alir penelitian yang
dapat dilihat pada Gambar 3.1.

Gambar 3.1 Diagram Alir Penelitian


Gambar 3.1 merupakan diagram alir yang menunjukkan 10 tahapan dalam
implementasi sintesis teks ke ucapan menggunakan korpus Bahasa Indonesia
berbasis SV2TTS. Sepuluh tahapan tersebut dimulai dari problem identification,
literature review, data collection, pre-processing data, kemudian masuk pada
tahapan pelatihan dimulai dari synthesizer training, model integration, kemudian
melakukan model evaluation, result analysis, conclution dan diakhiri dengan
tahapan future works untuk pengembangan lebih lanjut di masa mendatang.

Anda mungkin juga menyukai