Anda di halaman 1dari 29

TEXT TO SPEECH BAHASA MINANGKABAU DIALEK

KABUPATEN LIMA PULUH KOTA DENGAN MENGGUNAKAN


METODE VITS

PROPOSAL TUGAS AKHIR

Disusun Sebagai Salah Satu Syarat


Untuk Memperoleh Gelar Sarjana Teknik
Pada Jurusan Teknik Informatika

Oleh

ARIF HIDAYATULLAH

NIM. 12050112519

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SULTAN SYARIF KASIM RIAU

PEKANBARU

2023/2024
KATA PENGANTAR

Assalaamu’alaikum wa rahmatullaahi wa barakaatuh..

Alhamdulillahi rabbil’alamin, rasa syukur yang tak henti-hentinya penulis ucapkan


kehadirat Allah SWT, dengan rahmat dan hidayah-Nya penulis mampu menyelesaikan
Makalah ini dengan baik. Shalawat dan salam kepada Nabi Muhammad SAW, yang telah
membawa kita ke dunia yang penuh dengan ilmu.

Tugas Akhir ini disusun sebagai salah satu syarat untuk mendapatkan gelar sarjana
pada jurusan Teknik Informatika Universitas Islam Negeri Sultan Syarif Kasim Riau.
Banyak sekali pihak yang telah membantu kami dalam penyusunan laporan ini, baik
berupa bantuan materi ataupun berupa motivasi dan dukungan kepada kami. Semua itu
tentu terlalu banyak bagi kami untuk membalasnya, namun pada kesempatan ini kami
hanya dapat mengucapkan terima kasih kepada:

1. Bapak Prof. Dr. Khairunnas, M. Ag., selaku rektor Universitas Islam Negeri Sultan
Syarif Kasim Riau.
2. Bapak Dr. Hartono, M. Pd., selaku dekan Fakultas Sains dan Teknologi Universitas
Islam Negeri Sultan Syarif Kasim Riau.
3. Bapak Iwan Iskandar, M. T., selaku Kepala Jurusan Teknik Informatika Fakultas
Sains dan Teknologi Universitas Islam Negeri Sultan Syarif Kasim Riau.
4. Ibu Fadhilah Syafria, S.T., M.Kom selaku pembimbing akademik.
5. Bapak Muhammad Fikri, S.T, M.Sc ., selaku pembimbing tugas akhir.
6. Teristimewa kepada Ayah, Ibu, Kakak, dan Adek yang selalu memberikan
semangat, doa, serta motivasi bagi penulis. Sehingga mampu menghadapi dan
menyelesaikan segala permasalahan yang dihadapi selama melakukan penelitian
tugas akhir hingga dapat terselesaikannya laporan ini.
7. Semua teman-teman penulis yang tidak bisa disebutkan satu persatu, yang selalu
memberikan bantuan dengan perannya masing-masing sehingga penulis dapat
menyelesaikan laporan ini.
8. Seluruh pihak yang belum kami cantumkan, terima kasih atas dukungannya, baik
material maupun spiritual.

Kami menyadari bahwa dalam penulisan laporan ini masih banyak kesalahan dan
kekurangan, oleh karena itu kritik dan saran yang sifatnya membangun sangat kami
harapkan untuk kesempurnaan laporan ini. Akhirnya kami berharap semoga laporan ini
dapat memberikan sesuatu yang bermanfaat bagi siapa saja yang membacanya

Wassalâmu’alaikum wa rahmatullâhi wa barakâtuh

Pekanbaru 1 Januari 2024

Arif Hidayatullah
DAFTAR ISI

KATA PENGANTAR .......................................................................................................... 2

DAFTAR ISI......................................................................................................................... 4

BAB I PENDAHULUAN .................................................................................................. 8

1.1 Latar Belakang ................................................................................................................... 8

1.2 Rumusan Masalah ........................................................................................................... 10

1.3 Batasan Masalah.............................................................................................................. 10

1.4 Tujuan Penulisan.............................................................................................................. 11

1.5 Manfaat Penelitian .......................................................................................................... 11

1.6 Literature Review............................................................................................................. 12

BAB II KAJIAN PUSTAKA ........................................................................................ 18

2.1 Kajian Metode ................................................................................................................. 18

2.1.1 Bahasa Minangkabau dari Kabupaten Lima Puluh Kota .............................. 21

2.1.2 Text to speech (TTS) .................................................................................... 18

2.1.3 VITS (Conditional Variational Autoencoder with Adversarial Learning for


End-to-End Text-to-Speech) ......................................................................... 18

2.1.4 MOS (Mean Option Score) ........................................................................... 20

2.2 Penelitian Terkait .................................................................Error! Bookmark not defined.

BAB III METODOLOGI PENELITIAN ....................................................................... 23

3.1 Identifikasi Masalah ......................................................................................................... 24

3.2 Persiapan ......................................................................................................................... 24

3.2.1 Tentukan Voice Talent .................................................................................. 24

3.2.2 Pembuatan Teks ............................................................................................ 25

3.3 Perekaman ....................................................................................................................... 25

3.4 Penyiapan Dataset ........................................................................................................... 26

3.5 Pelatihan .......................................................................................................................... 26


3.6 Pengujian ......................................................................................................................... 26

DAFTAR PUSTAKA ......................................................................................................... 28


DAFTAR GAMBAR

Gambar 2.1 Proses Text To Speech ....................................................................... 10

Gambar 2.2 Prosedur Pelatihan VITS ................................................................... 11

Gambar 2.3 Prosedur Inferensi VITS .................................................................... 12

Gambar 3.1 Alur Metodologi Penelitian..................................................................28


DAFTAR TABEL

Tabel 1.1 Literature Riview..............................................................................................

Tabel 2. 1 Nilai MOS........................................................................................................

Tabel 2. 2 Penelitian Terkait.............................................................................................


BAB I
PENDAHULUAN

1.1 Latar Belakang

Setiap bahasa memiliki karakteristik tersendiri, seperti kekayaan kosakata, tata


bahasa, dan dialek. Bahasa juga dapat digunakan sebagai alat untuk mengembangkan
kemampuan berpikir kritis dan analitis, serta memperkaya pengetahuan dan wawasan
seseorang (Khairani et al., 2018). Bahasa daerah hampir punah karena berbagai faktor,
seperti kemajuan teknologi, penurunan jumlah penutur, dampak bencana besar, pernikahan
antarsuku, letak geografis yang tidak menguntungkan, dan sikap negatif masyarakat
terhadap bahasa daerah (Ulfa, 2019). Saat ini, teknologi TTS sudah banyak digunakan
untuk bahasa- bahasa yang umum digunakan, seperti bahasa Inggris, Indonesia Mandarin,
dan Jepang (Sari, 2018).

Dimasa sekarang digital yang terus berkembang, teknologi kecerdasan buatan (AI)
telah menjadi salah satu inovasi yang paling revolusioner. disaat sekarang AI dapat
dimanfaatkan untuk mengenali suatu teks yang nantinnya akan bisa menghasilkan suara
yang telah dilatih melalui pengolahan bahasa alami (Natural Language Processing) yaitu
Teknologi TTS (Text To Speech)

Teknologi TTS terus berkembang dan semakin canggih, sehingga suara yang
dihasilkan semakin mirip dengan suara manusia (Fitriawati et al., 2020). Pengembangan
sistem TTS telah menjadi topik penelitian yang penting. TTS memungkinkan komputer
untuk menghasilkan ucapan yang menyerupai suara manusia dari teks yang diberikan.
Salah satu aspek penting dari pengembangan TTS adalah kemampuannya dalam merender
atau mengonversi teks ke dalam berbagai bahasa (Vecino et al., n.d.) dan dialek, termasuk
bahasa minoritas atau daerah seperti dialek bahasa Minangkabau yang digunakan di
Kabupaten Lima Puluh Kota, Sumatera Barat.

Bahasa Minangkabau, yang memiliki beragam dialek tergantung pada wilayahnya,


merupakan salah satu bahasa daerah di Indonesia yang kaya akan budaya dan sejarahnya.
Kabupaten Lima Puluh Kota memiliki keunikan tersendiri dalam dialek dan kekayaan
kosa kata bahasa Minangkabau dan termasuk dialek terbanyak nomor dua yang digunakan
setelah dialek batang agam yang perlu diperhatikan dalam pengembangan sistem TTS.
Pengembangan TTS untuk bahasa minoritas atau dialek tertentu, seperti bahasa
Minangkabau dari Kabupaten Lima Puluh Kota, menjadi penting dalam rangka
melestarikan dan mengembangkan keanekaragaman bahasa serta memfasilitasi akses
teknologi bagi masyarakat yang menggunakan bahasa tersebut dalam kehidupan sehari-
hari.

Dalam konteks ini, metode VITS (Vector-Quantized Invertible Transform) menjadi


subjek utama dalam pengembangan TTS. Metode ini memiliki keunggulan dalam
merepresentasikan data suara dan teks secara bersamaan dengan menggunakan teknik
vektor kuantisasi yang memungkinkan pencocokan yang lebih baik antara teks dan suara
yang dihasilkan.

Penelitian terdahulu yang dilakukan oleh Wei Zhao dan Zheng Yang menjelaskan
tentang sistem baru yang disebut Emo-VITS, yang didasarkan pada modul sintesis ucapan
yang sangat ekspresif VITS, untuk merealisasikan kontrol emosi dalam sintesis teks-ke-
ucapan Dalam penelitian tersebut penulis. merancang jaringan emosi untuk mengekstrak
fitur global dan lokal dari audio referensi, dan kemudian menyatukan fitur global dan lokal
melalui modul fusi fitur emosi berdasarkan mekanisme perhatian, sehingga mencapai
sintesis ucapan emosi yang lebih akurat dan komprehensif (Zhao & Yang, 2023).
Beberapa penelitian terkait Text To Speech telah dilakukan diantaranya oleh (Mitsui et al.,
2022) yang membahas tentang pengembangan sistem Text-to- Speech (TTS) yang dapat
menghasilkan suara yang menyerupai percakapan manusia. Dalam penelitian tersebut,
digunakan model VAE-VITS yang dapat menghasilkan suara yang lebih natural dengan
mempertimbangkan faktorparalinguistik dan sejarah percakapan.

Selain penelitian di atas juga ada penelitian yang mendukung untuk melakukan
penelitian ini, yaitu penelitian dari Sudirman Melangi yang membahas tentang
pengembangan sistem sintesis ucapan bahasa Indonesia menggunakan teknologi Teks-to-
Speech (TTS). Hasil pengujian dari 45 responden menunjukkan bahwa sistem TTS yang
dikembangkan memiliki kriteria penilaian intelligibility dengan nilai MOS (Mean Opinion
Score) sebesar 3,66 dan naturalness dengan nilai MOS sebesar 3,57. Dengan demikian,
penelitian ini memberikan kontribusi dalam pengembangan teknologi TTS untuk bahasa
Indonesia (Sudirman Melangi, 2018).

Berdasarkan permasalahan yang telah diuraikan di atas, pelestarian bahasa daerah


menjadi alasan utama dalam membuat Tugas Akhir ini. Dengan semakin majunya
teknologi dan jumlah penutur daerah yang cenderung berkurang, hal ini diperkirakan akan
menyebabkan punahnya bahasa-bahasa daerah. Melalui pengembangan TTS untuk bahasa
Minangkabau Dialek Lima Puluh Kota menggunakan metode VITS, penelitian ini
bertujuan untuk merespons kebutuhan masyarakat terhadap teknologi suara yang dapat
memelihara kekayaan bahasa lokal, meningkatkan aksesibilitas informasi, mendukung
pendidikan, dan memperluas inovasi teknologi.

Namun pengaplikasiannya pada bahasa minoritas atau dialek tertentu, seperti dialek
bahasa Minangkabau dari Kabupaten Lima Puluh Kota, masih terbatas. Oleh karena itu,
penelitian ini diharapkan dapat memberikan kontribusi yang signifikan dalam bidang TTS
dan pengolahan bahasa alami, khususnya dalam konteks pengembangan sistem TTS untuk
bahasa minoritas. Ini merupakan Upaya untuk memahami, memelihara, dan
mengembangkan keragaman bahasa di Indonesia juga merupakan bagian dari pelestarian
dan pengembangan budaya lokal (KAMPANYE SOSIAL Eleanora Josephine, 2022)

1.2 Rumusan Masalah


Dari riwayat latar belakang yang telah di paparkan, rumusan masalah dalam
penelitian ini adalah bagaimana untuk melestarikan bahasa minangkabau dialek lain selain
dari dialek batang agam yang sering digunakan oleh kebanyakan penduduk di wilayah
sumatera barat yaitu salah satunya dialek Lima Puluh Kota dengan cara mengembangkan
sebuah sistem komputer yang bertemakan (Natural Language Processing) dengan sistem
TTS bahasa Alas menggunakan metode Conditional Variational Autoencoder with
Adversarial Learning for End-to-End Text-to-Speech (VITS) untuk menghasilkan suara yang
alami dan mudah dimengerti oleh penutur bahasa Minangkabau dialek Lima Puluh Kota.

1.3 Batasan Masalah


Berdasarkan judul “Text To Speech Bahasa Minangkabau Dialek Kabupaten Lima
Puluh Kota Dengan Menggunakan Metode Vits” beberapa batasan masalah agar
tidak menyimpang dari tujuan penuliasannya ini dibatasi pada:

1. Data riset yang diperoleh merupakan Bahasa minang dari satu logat dari suatu
daerah saja pada wilayah kabupaten lima puluh kota
2. Usia dari orang yang akan membuat data suara rekaman pria berusia 40+ dan
memiliki kualifikasi pengetahuan dan pengalaman yang bisa diterima untuk
dijadikan pedoman.
3. Data Audio yang diperoleh hanya berkisar antara 200 -500 kalimat.
4. Hasil pengujian MOS (Mean Opinion Score) yang akan diambil hanya berkisar
dari 5 katgori level pengujian.

1.4 Tujuan Penulisan


Adapun tujuan yang ingin dicapai dari penelitian tugas akhir ini antara lain;

1. Mengembangkan sistem TTS bahasa daerah minangkabau dialek kabupaten lima


puluh kota.
2. Menerapkan metode VITS (Conditional Variational Autoencoder with Adversarial
Learning for End-to-End Text-to-Speech). untuk menghasilkan suara yang alami
dan berkualitas.
3. Mendapatkan hasil uji MOS (Mean Opinion Score)/ Skala rata – rata yang
mewakili kualitas yang cukup memuaskan pada hasil penelitian
4. Menyediakan solusi teknologi yang dapat digunakan dalam bidang pendidikan,
budaya, dan lainnya untuk memperkaya penggunaan bahasa daerah Minang.

1.5 Manfaat Penelitian


Adapun manfaat yang mendukung agar penelitian mendapat periizinan antara lain;

1. Mempermudah aksesibilitas terhadap bahasa daerah Minangkabau dialek Lima


puluh Kota melalui teknologi TTS. Dalam hal ini, bahasa minangkabau memiliki
data yang bisa dijadikan sebagai rujukan pengembangan dan pengenalan dan
akses dalam pengenalan bahasa minang dengan dialek yang berbeda dnegan
mudah bagi masyarakat luar.
2. Mempermudah dalam memperkenalkan bahasa daerah pada tiap - tiap dialek
lainnya untuk dikembangkan lebih signifikan.

Melalui penyediaan dataset, penerapan metode VITS, dan evaluasi kualitatif


menggunakan MOS, penelitian ini dapat memberikan kontribusi yang berarti dalam
pengembangan teknologi sintesis suara Bahasa Minangkabau dialek Lima Puluh Kota bagi
penelitian berikutnya mendukung pelestarian budaya, memberdayakan komunitas lokal untuk
menggunakan teknologi secara lebih efektif dan membuat bahasa alas lebih dikenal
masyarakat luas. Menjadi dasar untuk pengembangan teknologi TTS untuk bahasa daerah
lainnya.
1.6 Literature Review

Tabel 1.1 Literature Review

No Judul Penulis (tahun) Metode Hasil


1 Pengenalan Davit Irawan, diphone Penelitian ini fokus pada
Bahasa Daerah Lukman concatenation pengembangan aplikasi kamus
Lubuklinggau Sunardi, Indah bahasa daerah berbasis Android
Dilengkapi Pratami(2023) yang memiliki fitur Text to
Dengan Text To Speech, bertujuan untuk
Speech Berbasis memudahkan pengguna dalam
Android memahami dan menggunakan
bahasa daerah secara praktis dan
efisien. Pengukuran dilakukan
melalui tes pencarian kata acak, di
mana aplikasi berhasil memberikan
definisi yang tepat untuk 90% kata
yang diuji. Sebanyak 87%
pengguna menyatakan kepuasan
mereka terhadap pengalaman
menggunakan aplikasi kamus
bahasa daerah ini.
2 An Emotion Zheng Yang, Inference with Penulis telah mengembangkan
Speech Synthesis Wei Zhao adversarial learning
model sintesis ucapan emosional
Method Based on (2023) for end-to-end berbasis VITS yang disebut Emo-
VITS (VITS)
VITS. Evaluasi subjektif dan
objektif membuktikan bahwa
sistem Emo-VITS dapat mencapai
hasil yang signifikan dalam
memperlihatkan emosi.
Penulis juga memanfaatkan
struktur VITS dalam ucapan
sintetis dan berhasil mengekstrak
fitur emosional global dan lokal
dari audio referensi secara terpisah
dengan merancang jaringan
pengkode emosi.
3 End-to-End Kentaro Mitsui, Variational Dalam penelitian ini, diterapkan
Text-to-Speech Kei Sawada, Inference with model VAE-VITS untuk
Based on Latent Yukiya Hono, adversarial learning menghasilkan suara yang lebih
for end-to-end
Representation of Tianyu Zhao, alami dengan mempertimbangkan
(VITS), and VAE
Speaking Styles Yoshihiko faktor paralinguistik dan sejarah
(VAE-VITS)
Using Nankaku, percakapan. Sebagai
Spontaneous Keiichi Tokuda tambahan, style predictor juga
Dialogue (2022) digunakan untuk memprediksi
gaya bicara yang sesuai dengan
konteks percakapan. Evaluasi
subjektif menunjukkan bahwa
sistem TTS yang dikembangkan
berhasil menciptakan suara yang
lebih alami dan mendekati
percakapanmanusia sesuai dengan
harapan.
4 Text To Speech Sudirman Synthesizer Dalam penelitian ini, Diperkenalkan
Bahasa Indonesia Melangi ( 2018) Concatenation pendekatan inovatif yang
Menggunakan dengan pendekatan menggunakan basis data ujaran
Synthesizer algoritma Time fonem dasar. Penggunaan fonem
Concatenation Domain PSOLA diharapkan dapat mengurangi
Berbasis Fonem penggunaan memori dan
mempercepat proses. Penelitian ini
menerapkan metode synthesizer
concatenation dengan
memanfaatkan algoritma Time
Domain PSOLA (Pitch
Synchronous Overlap Add).
Pendekatan ini digunakan dengan
tujuan menciptakan pengucapan
bahasa Indonesia yang terdengar
alami. Hasil pengujian dari 45
partisipan menunjukkan bahwa
sistem TTS yang dikembangkan
mendapat penilaian tinggi dalam
kriteria intelligibility dengan nilai
MOS (Mean Opinion Score)
sebesar 3,66, dan naturalness
dengan nilai MOS sebesar 3,57.
Oleh karena itu, penelitian ini
memberikan kontribusi penting
dalam pengembangan teknologi
TTS untuk bahasa Indonesia.
5 Implementasi Arif Bijaksana Shallow Parsing Dalam penelitian ini, digunakan
Text To Speech Putra Negara, metode aturan atau rule grammars
Pada Website Lia Suci dalam Bahasa Indonesia untuk
Menggunakan Fitriawati, melakukan segmentasi kalimat
Metode Shallow Rudy Dwi menjadi frasa-frasa berdasarkan
Parsing Nyoto (2020) kelas kata. Pengujian
menunjukkan
bahwa sistem ini dapat
menghasilkan frasa-frasa yang
dapat diterima oleh pendengar,
namun masih ada kekurangan
dalam pemenggalan kalimat
dan kualitas sintesa ucapan.
6 Conditional Jaehyeon Kim, Variational Penelitian ini memperkenalkan
Variational Jungil Kong, Inference with metode TTS end-to-end paralel
Autoencoderwith Juhee Son adversarial learning yang menggunakan conditional
Dversarial (2021) for end-to-end variational autoencoder dengan
Learning (VITS) pembelajaran adversarial. Metode
for End-to-End ini mampu menghasilkan suara
Text- yang lebih alami daripada
to-Speech model dua tahap saat ini.
Selain itu, metode ini juga
mencakup prediktor durasi
stokastik untuk mengekspresikan
ritme ucapan yang beragam.
Hasil eksperimen menunjukkan
bahwa metode yang diusulkan ini
mengungguli sistem TTS terbaik
yang tersedia secara publik dalam
evaluasi manusia subjektif dan
mencapai skor opini rata-rata yang
sebanding dengan data
sebenarnya. Metode ini juga
dibahas dalam pelatihan, termasuk
penggunaan conditional VAE,
estimasi alignment, dan pelatihan
adversarial. Selain itu, penelitian ini
juga membahas tantangan dan Hal
arsitektur dan prosedur
pelatihan,termasuk penggunaan
conditional VAE estimasi
alignment, dan pelatihan
adversarial. Selain itu, penelitian ini
juga membahas tantangan dan
solusi untuk estimasi alignment
dan prediksi durasi dari teks.
7 Perbandingan Fadli Rianda, Proportional Penelitian ini bertujuan untuk
Mean Opinion A ji Gautama Integral Controller menguji kualitas MOS pada
Score (MOS) pada Putrada Satwiko, Enhanced (PIE) algoritma PIE dan Droptail pada
Jaringan VoIP Siti Amatullah dan Droptail jaringan VoIP. Hasil perbandingan
Menggunakan Karimah (2018) antara kedua algoritma tersebut
Proportional menunjukkan bahwa delay pada
Integral Droptail lebih tinggi daripada PIE,
Controller dan packet loss yang dihasilkan
Enhanced (PIE) Droptail juga lebih tinggi
dan Droptail daripada PIE.
8 Lightweight End- Biel Tura exponential decay Dari penenlitian ini,
to-end Text-to- Vecino, Adam scheduler untuk mengembangkan TTS dengan harga
speech Synthesis Gabrys, Daniel mengurangi rendah sumber daya aplikasi pada
for low resource M ˛atwicki, learning rate, aplikasi dengan menghasilkan
on-device Andrzej weight decay arsitektur model vocoder saraf
applications Pomirski, Tom penalty factor, dan mandiri yang menunjukkan tujuan
Iddon, ´ Marius evaluasi metrik kerugian awal akan menghasilkan
Cotescu, Jaime yang terdiri dari bentuk gelombang kualitas yang
Lorenzo-Trueba conditional Fréchet lebih baik dibandingkan dengan
(2021) Speech Distance tujuan pelatihan awal tanpa
(cFSD), root mean- perubahan apa pun dalam arsitektur
squared error model
(RMSE) dari
fundamental
frequency (F0), dan
mean cosine
distance metric
9 MOSRA: Joint Karl El pelatihan bersama Penelitian ini membandingkan
Mean Opinion Hajal1,2 , Milos tugas MOS dan kinerja model MOSRA dan NISQA
Score and Room Cernak1 , Pablo karakteristik multi-dimensi yang dilatih pada
Acoustics Speech Mainar1 (2022) akustik ruangan dataset yang lebih kecil dan
Quality untuk tantangan untuk tugas penilaian
Assessment meningkatkan kualitas suara dan karakteristik
kinerja model akustik ruangan. Hasilnya
MOSRA. menunjukkan bahwa pelatihan
bersama tugas MOS dan akustik
ruangan meningkatkan kinerja,
terutama ketika data kualitas
subjektif langka. Model ini
mengungguli baseline dan POLQA
pada dataset evaluasi tantangan.
Ukuran dan arsitektur model yang
kecil membuatnya efisien waktu
dan ruang untuk diterapkan dalam
pengaturan praktis. Hasilnya juga
mengonfirmasi hipotesis bahwa
pelatihan bersama meningkatkan
kinerja. Studi ini memberikan
referensi ke karya terkait dan
rencana evaluasi untuk tantangan.
Penelitian ini memperkenalkan
metrik kualitas suara multi-dimensi
non-intrusif yang disebut MOSRA,
yang dapat memprediksi parameter
akustik ruangan bersamaan dengan
skor pendapat rata-rata (MOS)
secara keseluruhan untuk kualitas
suara.
10 Aplikasi Kamus Ika Sari (2018) Kepustakaan, Penelitian Ini dalah untuk
Bahasa inggris wawancara, dan mengumpulkan data pada SD dalam
dilengkapi dengan observasi mengguanakan Aplikasi Kamus
Text to Speech Bahasa Inggris yng di sertai dengan
Berbasis Android TTS, yang membuat pembelajaran
bahasa Inggris dengan Sifat pottabel
BAB II
KAJIAN PUSTAKA

2.1 Kajian Metode

2.1.1 Text to speech (TTS)


Text-To-Speech merupakan suatu sistem teknologi yang dapat mengubah
teks dari suatu bahasa alami menjadi suara atau ucapan (Kim et al., 2021). Dengan
begitu, TTS memungkinkan komputer atau perangkat lain untuk membaca teks
dengan suara manusia yang sudah dilatih. (Wallace et al., 2022). Sistem Text-To-

Speech pada
Gambar 2.II.1 Proses Text To Speech

dasarnya terdiri dari dua subsistem yang melibatkan proses berikut.

1. Proses mengubah teks ke dalam kode teks ucapan

Bagian ini bertanggung jawab untuk memproses kalimat masukan yang


berbentuk teks dalam suatu bahasa tertentu. Fungsinya adalah Mengubah teks
menjadi urutan kode ucapan yang sesuai dengan sistem pembangkit ucapan.

2. Proses mengubah kode teks ucapan ke ucapan:


Pada bagian ini, Konverter kode teks ucapan-ke-ucapan mengambil
masukan dalam bentuk kode-kode dan mengubahnya menjadi sinyal ucapan atau
audio. Hasilnya sesuai dengan kalimat yang ingin diucapkan, menciptakan suara
yang dapat didengar (Fitriawati et al., 2020)

2.1.2 VITS (Conditional Variational Autoencoder with Adversarial Learning


for End-to-End Text-to-Speech)

VITS adalah model sintesis ucapan berkinerja tinggi yang menggabungkan


inferensi variational dengan normalizing flows dan proses pelatihan adversarial.
VITS menggunakan Variational AutoEncoder (VAE) dan menerapkan normalized
flows. pada distribusi prior kondisional, serta pelatihan adversarial pada domain
gelombang suara untuk meningkatkan kualitas gelombang suara ucapan. Dengan
menghubungkan dua modul dari sistem Text-To-Speech (TTS) dengan variabel laten,
pembelajaran end-to-end lengkap dicapai, yang dapat menghasilkan audio suara
yang lebih alami dibandingkan dengan model dua tahap saat ini (KAIST, 2021).
Melalui pemodelan acak pada variabel tersembunyi dan penggunaan prediktor durasi
acak, keragaman ucapan yang disintesis ditingkatkan. Input teks yang sama dapat
mensintesis ucapan dengan nada dan prosodi yang berbeda (Zhao & Yang, 2023).

Berikut ini merupakan Prosedur pelatihan dan inferensi VITS :

Gambar 2.II.2 Prosedur Pelatihan VITS

Gambar 2.3 Prosedur Inferensi VITS


VITS adalah model TTS end-to-end yang mempelajari hubungan antara urutan fonem c
dan gelombang suara x melalui variabel laten tingkat frame zf. VITS memperkirakan alur
monotonik antara c dan zf selama pelatihan menggunakan algoritma MAS. Dengan
demikian, VITS dapat dilatih dengan lebih stabil dibandingkan dengan model yang
sepenuhnya berbasis atensi seperti Tacotron 2 (Mitsui et al., 2022).

2.1.3 MOS (Mean Option Score)


Mean Opinion Score adalah metrik yang digunakan untuk mengukur kualitas
atau kepuasan subjektif dari pengalaman pengguna terhadap suatu layanan atau
produk. MOS digunakan sebagai metrik evaluasi kualitas suara dalam konteks
percakapan atau pemrosesan suara. MOS dapat dihitung menggunakan dua
pendekatan, yakni melalui metode kuesioner berdasarkan pendapat pengguna akhir
(end user) dan metode matematis dengan pendekatan faktor kualitas (Putra et al.,
2014). Pada dasarnya, MOS diperoleh melalui uji dengar subjektif di mana
sekelompok orang diberi kesempatan untuk mendengarkan contoh suara atau
percakapan tertentu dan memberikan penilaian subjektif terhadap kualitasnya. Nilai-
nilai ini kemudian diambil rata-rata untuk

MOS merupakan salah satu metode yang lebih efektif dalam mengevaluasi
peningkatan kinerja dan kemudahan penggunaannya seharusnya membbuat metode
MOS mudah digunakan oleh Pendengar yang bukan ahli. Nantinya ketika pengujian
meminta sebuah perbandingan langsung dari hasil yang diperoleh dari metode
dilakukan maka kesepakatan hasil yang akan ditafsirkan sebagai validasi metode
MOS (Salza et al., 1996). Validasi MOS yang terbukti merupakan teknik yang
handal dan sederhana untuk penilaian global kualitas TTS yang mampu memberikan
informasi yang lengkap tentang peneriamaan sistesis ucapan bahasa daerah dan
memperluas pemahaman pengguna (Sunardi et al., 2023). Perbandingan pengujian
ini juga membantu menunjukkan kemmapuan produksi ulang antar laboratorium dari
metode MOS. Para pendengar menggunakan MOS secara efektif, dan mampu
membedakan dengan jelas antara sistem yang berbeda dan antara komponen –
komponen sistem yang berbeda.

memberikan MOS sebagai indikator umum dari bagaimana sekelompok orang


menganggap kualitas suara tersebut. Berikut adalah tabel nilai MOS :
Tabel 2.II.1 Kriteria Nilai MOS

No Kualitas Nilai
1 Sangat Baik 5
2 Baik 4
3 Cukup 3
4 Buruk 2
5 Sangat Buruk 1

MOS bersifat subjektif, karena bergantung pada penilaian individual dan


preferensi auditor. MOS menjadi alat penting dalam penilaian kualitas, terutama
dalam konteks komunikasi suara, seperti dalam teknologi telekomunikasi atau audio
(El Hajal et al., 2022)

2.2 Bahasa Minangkabau dari Kabupaten Lima Puluh Kota


Bahasa Minangkabau merupakan salah satu bahasa daerah dinegara Indonesia,
tepatnya, pada Profinsi Sumatera Barat (Bloom & Reenen, 2013). Pada bahasa
daerah Minangkabau Terdiri dari empat dialek diantaranya dialek Agam, 50 kota,
Tanah Datar, Pasaman, dan Pesisir Selatan (Ayub et al., 1993). Di samping itu,
bahasa Minangkabau sebagai salah satu cabang bahasa-bahasa Melayu Polinesia
mempunyai kemiripan yang sangat dekat dengan bahasa Indonesia, baik kosa-kata,
morfem, maupun sintaksis.

Bahasa Minangkabau umum adalah bahasa yang digunakan oleh orang-orang


yang berasal dari berbagai daerah dan tidak memiliki ciri-ciri khasnya dialekta
khusus. Dialek Agam tidak lagi digunakan dalam percakapan antara orang-orang
dari berbagai daerah asal Minangkabau. Di kota-kota seperti Padang, Bukittinggi,
dan di kota-kota di luar Sumatera Barat seperti Medan, Pekanbaru, Jakarta,
Bandung, bahasa Minangkabau yang digunakan tidak sama dengan dialek
Minangkabau yang ada. Bahasa Minangkabau yang digunakan di kota Padang dan
kota-kota lainnya sekarang merupakan bahasa Minangkabau umum, tidak lagi
terbatas pada daerah tertentu.
Pemilihian penelitian pada bahasa Minangkabau dialek Lima Puluh Kota
adalah karena dialek tersebut merupakan dialek nomor dua terbanyak yang dipakai
setelah dialek Agam pada sumatera barat karena dipakai oleh sejumlah kabupaten
seperti tanah datar, sawah lunto, dan damasraya kemudian menjadikan dialek lima
puluh kota sebagai penelitian karena dialek lima puluh kota berasal dari luak lima
puluh kota, yang mana luak yang dimaksud dalam budaya sumatera barat adalah
sumur yang diartikan sebagai wilayah atau distrik salah satu asal usul suku
Minangkabau karena budaya Minangkabau nya yang sangat kental, dan karena Luak
Lima Puluh Kota adalah luak yang terakhir dari tiga luak lainnya sehingga di anggap
sebagai luak nan bonsu (Bloom & Reenen, 2013)
BAB III
METODOLOGI PENELITIAN

Metodologi penelitian merupakan serangkaian langkah yang dilakukan


secara berurutan dalam suatu penelitian. Fungsinya adalah memberikan panduan
kepada peneliti agar dapat menjalankan penelitian dengan efektif sehingga
mencapai tujuan penelitian yang telah ditetapkan.

Gambar 3.1 Alur Metodologi Penelitian


3.1 Identifikasi Masalah
Pada tahap ini, dilakukan identifikasi masalah yang akan diteliti melalui studi
literatur, seperti internet, buku, jurnal, dan penelitian terkait text-to-speech (TTS).
Untuk mengembangkan model TTS yang berkualitas, diperlukan dataset suara yang
mencakup variasi pengucapan, aksen, dan intonasi yang tepat. Dengan memahami
masalah ini, nantinya dalam pelaksanaan penelitian ini dapat merancang strategi dan
solusi yang tepat untuk mengatasi kendala tersebut dan meningkatkan kualitas suara
yang dihasilkan.

3.2 Persiapan
Persiapan yang dilakukan untuk mendukung penelinitian ini adalah sebagai
berikut :

3.2.1 Tentukan Voice Talent


Dalam metode penelitian tentang text to speech, tahap persiapan
menentukan voice talent untuk pembuatan data suara merupakan tahap yang
penting. Voice talent merupakan orang yang akan mengisi suara untuk data suara
yang akan digunakan sebagai input untuk model text to speech. Suara yang
dihasilkan oleh voice talent akan menentukan kualitas output dari model text to
speech. Oleh karena itu, pemilihan voice talent harus dilakukan dengan cermat.
Ada beberapa hal yang perlu diperhatikan dalam pemilihan voice talent untuk
pembuatan data suara, seperti kualitas suara. Voice talent harus memiliki kualitas
suara yang baik, baik dari segi intonasi, artikulasi, maupun kejelasan. Kemudian
kemampuan pengucapan, voice talent harus memiliki kemampuan pengucapan
yang baik terutama dalam bahasa yang akan diteliti yakni bahasa Minangkabau
dialek Lima Puluh Kota. Dalam tahap ini telah ditemukan dan ditentukan voice
talent yang akan digunakan yaitu seorang Pria yang merupakan orang asli Tinggal
di Kabupaten Lima Puluh Kota.
3.2.2 Pembuatan Teks
Pembuatan teks ini merupakan tahap kritis yang memerlukan perencanaan
yang cermat untuk memastikan variasi, representativitas, dan kualitas dalam hasil
akhir TTS. Penggunaan kalimat yang mencakup kosa kata dan struktur kalimat
yang beragam penting untuk meningkatkan kemampuan model TTS dalam
menangani berbagai jenis teks. Dalam penelitian ini digunakan 220 kalimat untuk
membuat data suara. Jumlah ini cukup untuk menghasilkan model text to speech
yang berkualitas.

3.3 Perekaman
Pada tahap ini, perekaman harus memenuhi sejumlah kriteria teknis untuk
mendukung pengembangan model TTS yang optimal. Dalam konteks ini, rekaman
audio harus disiapkan dalam format 16-bit, mono PCM WAV untuk memastikan
kualitas suara yang tinggi. Pemilihan format ini juga konsisten dengan kebutuhan
aplikasi TTS yang umumnya menggunakan format tersebut.

Durasi rekaman yang diinginkan antara 1 hingga 10 detik memberikan


keragaman dan fleksibilitas dalam penggunaan data suara tersebut. Hal ini penting
untuk memastikan bahwa model TTS dapat mengatasi berbagai panjang teks dengan
baik. Sample rate sebesar 22050 Hz dipilih agar rekaman memiliki kualitas audio
yang memadai tanpa memberatkan kapasitas penyimpanan atau pemrosesan.

Selain aspek teknis, untuk mencapai rekaman dengan minim noise dan distorsi.
Background noise dan distorsi dapat memengaruhi kualitas suara yang dihasilkan
oleh model TTS, sehingga meminimalkan gangguan tersebut meningkatkan
kejelasan dan keakuratan suara. Perekaman juga harus memastikan tidak ada jeda
panjang pada awal, tengah, dan akhir rekaman, sehingga hasilnya lebih alami dan
dapat diintegrasikan secara mulus dalam penggunaan praktis TTS.

Dengan memenuhi semua spesifikasi teknis ini, rekaman audio yang


dihasilkan akan memberikan dataset yang handal dan representatif untuk melatih
model TTS. Kualitas rekaman yang baik akan berkontribusi pada akurasi
pengenalan dan sintesis suara, menjadikan model TTS lebih mampu menghasilkan
output yang lebih natural dan mudah dimengerti.

3.4 Penyiapan Dataset


Pada tahap ini, data yang telah berhasil dikumpulkan pada fase sebelumnya
disusun dalam direktori utama yang diberi nama "/datasets". Di dalamnya, terdapat
file metadata.csv yang berfungsi sebagai penyimpan informasi terkait setiap
rekaman audio, seperti durasi, label kategori, dan detail lain yang relevan. Untuk
penyimpanan utama untuk file audio yaitu dalam bentuk format wav.

3.5 Pelatihan
Pada tahap pelatihan ini metode yang digunakan yaitu VITS. Model VITS
yang digunakan merupakan library yang terdapat pada coqui. Data suara yang telah
dikumpulkan pada tahap sebelumnya akan dilatih menggunakan pemrograman
bahasa python. Data suara tersebut akan dibagi menjadi dua set, yaitu set pelatihan
dan set pengujian. Pembagian data latih dan data uji yang akan digunakan adalah
sebesar 90% untuk pelatihan dan 10% untuk pengujian.

3.6 Pengujian
Tahap selanjutnya dalam penelitian ini melibatkan pengujian model dengan
menggunakan Metode MOS (Mean Opinion Score). MOS merupakan metode
evaluasi yang umum digunakan dalam bidang pemrosesan suara untuk mengukur
kualitas subjektif dari hasil rekaman atau sintesis audio. Dalam konteks ini, MOS
akan digunakan untuk mengumpulkan penilaian dari para responden terkait kualitas
audio yang dihasilkan oleh model VITS yang telah dilatih sebelumnya.

Proses pengujian MOS melibatkan partisipasi responden yang mendengarkan


contoh audio yang dihasilkan oleh model. Setiap responden diminta memberikan
penilaian numerik terhadap kualitas audio, biasanya dalam rentang skala 1 sampai 5.
Nilai-nilai ini kemudian diambil rata-ratanya untuk mendapatkan MOS, yang
mencerminkan nilai rata-rata dari penilaian kualitas audio oleh seluruh responden.
Pada penelitian ini minimal nilai MOS yang
ditetapkan yaitu sebesar 2,5. Apabila hasil nilai MOS kurang dari 2,5 akan
dilakukan pelatihan kembali dan pengujian ulang.
DAFTAR PUSTAKA

Ayub, A., Husin, N., Amir, M., Usman, H., Yasin, A., Pembinaan, P., & Bahasa, P. (1993).
Tata Bahasa Minangkabau.

Bloom, N., & Reenen, J. Van. (2013). 済無No Title No Title No Title. In NBER Working
Papers. http://www.nber.org/papers/w16019
El Hajal, K., Cernak, M., & Mainar, P. (2022). MOSRA: Joint Mean Opinion Score and
Room Acoustics Speech Quality Assessment. Proceedings of the Annual Conference of
the International Speech Communication Association, INTERSPEECH, 2022-Septe,
3313–3317. https://doi.org/10.21437/Interspeech.2022-10698
Fitriawati, L. S., Bijaksana, A., Negara, P., & Nyoto, R. D. (2020). InfoTekJar : Jurnal
Nasional Informatika dan Teknologi Jaringan Attribution-NonCommercial 4.0
International. Some rights reserved Implementasi Text To Speech Pada Website
Menggunakan Metode Shallow Parsing. 5(1).
https://doi.org/10.30743/infotekjar.v5i1.2141
KAIST. (2021). Vits. https://jaywalnut310.github.io/vits-demo/index.html
KAMPANYE SOSIAL Eleanora Josephine, P. (2022). Pelindungan Bahasa Daerah Untuk
Kaum Remaja Urban Di Indonesia. Jurnal Komunikasi Visual Wimba, 13(2), 61–77.
Khairani, Intan, A., Pratiwi Suci, N., Putri Aulia, N., Kuntarto, E., & Noviyanti, S. (2018).
PERAN, FUNGSI, DAN KEDUDUKAN BAHASA DALAM KEHIDUPAN SEHARI-
HARI Khairani1). 2.
Kim, J., Kong, J., & Son, J. (2021). Conditional Variational Autoencoder with Adversarial
Learning for End-to-End Text-to-Speech. Proceedings of Machine Learning Research.
Mitsui, K., Zhao, T., Sawada, K., Hono, Y., Nankaku, Y., & Tokuda, K. (2022). End-to-End
Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous
Dialogue. Proceedings of the Annual Conference of the International Speech
Communication Association, INTERSPEECH, 2022-Septe, 2328–2332.
https://doi.org/10.21437/Interspeech.2022-259
Putra, A. R., Priyono, W. A., & Kurniawan, D. F. (2014). Performansi Layanan Video
Conference Pada Jaringan Wide Area Network (Wan) Di Chevron Indonesia Company.
Jurnal Mahasiswa TEUB, 2(2), 1–6.
http://elektro.studentjournal.ub.ac.id/index.php/teub/article/view/219
Salza, P. L., Foti, E., Nebbia, L., & Oreglia, M. (1996). Metode Gabungan MOS dan
Perbandingan Pasangan untuk Evaluasi Kualitas Sistem Text-to-Speech. 82.
Sari, I. (2018). Aplikasi Kamus Bahasa Inggris Dilengkapi Dengan Fasilitas Teknologi Text
To Speech Berbasis Android. Jurnal Teknologi Dan Ilmu Komputer Prima
(JUTIKOMP), 1(1), 28–30. https://doi.org/10.34012/jutikomp.v1i1.316
Sudirman Melangi. (2018). Text To Speech Bahasa Indonesia Menggunakan Synthesizer
Concatenation Berbasis Fonem. Jurnal Teknik Elektro CosPhi, 2(2), 31–36.
Sunardi, L., Davit IRawan, & Indah Pratami. (2023). Pengenalan Bahasa Daerah
Lubuklinggau Dilengkapi Dengan Text To Speech Berbasis Android (Studi Kasus Dinas
Pendidikan Dan Kebudayaan Kota Lubuklinggau). JSAI (Journal Scientific and Applied
Informatics), 6(2), 147–153. https://doi.org/10.36085/jsai.v6i2.5017
Ulfa, M. (2019). Eksistensi Bahasa Daerah di Era Disrupsi. Stilistika: Jurnal Pendidikan
Bahasa Dan Sastra, 12(2). https://doi.org/10.30651/st.v12i2.2948
Vecino, B. T., Gabry, A., Daniel, M., Pomirski, A., Iddon, T., Cotescu, M., Lorenzo-trueba,
J., & Ai, A. (n.d.). Lightweight End-to-end Text-to-speech Synthesis for low resource
on-device applications.
Wallace, S. E., Hux, K., Knollman-Porter, K., Brown, J. A., Parisi, E., & Cain, R. (2022).
Reading behaviors and text-to-speech technology perceptions of people with aphasia.
Assistive Technology, 34(5). https://doi.org/10.1080/10400435.2021.1904306
Zhao, W., & Yang, Z. (2023). An Emotion Speech Synthesis Method Based on VITS.
Applied Sciences (Switzerland). https://doi.org/10.3390/app13042225

Anda mungkin juga menyukai