Oleh
ARIF HIDAYATULLAH
NIM. 12050112519
PEKANBARU
2023/2024
KATA PENGANTAR
Tugas Akhir ini disusun sebagai salah satu syarat untuk mendapatkan gelar sarjana
pada jurusan Teknik Informatika Universitas Islam Negeri Sultan Syarif Kasim Riau.
Banyak sekali pihak yang telah membantu kami dalam penyusunan laporan ini, baik
berupa bantuan materi ataupun berupa motivasi dan dukungan kepada kami. Semua itu
tentu terlalu banyak bagi kami untuk membalasnya, namun pada kesempatan ini kami
hanya dapat mengucapkan terima kasih kepada:
1. Bapak Prof. Dr. Khairunnas, M. Ag., selaku rektor Universitas Islam Negeri Sultan
Syarif Kasim Riau.
2. Bapak Dr. Hartono, M. Pd., selaku dekan Fakultas Sains dan Teknologi Universitas
Islam Negeri Sultan Syarif Kasim Riau.
3. Bapak Iwan Iskandar, M. T., selaku Kepala Jurusan Teknik Informatika Fakultas
Sains dan Teknologi Universitas Islam Negeri Sultan Syarif Kasim Riau.
4. Ibu Fadhilah Syafria, S.T., M.Kom selaku pembimbing akademik.
5. Bapak Muhammad Fikri, S.T, M.Sc ., selaku pembimbing tugas akhir.
6. Teristimewa kepada Ayah, Ibu, Kakak, dan Adek yang selalu memberikan
semangat, doa, serta motivasi bagi penulis. Sehingga mampu menghadapi dan
menyelesaikan segala permasalahan yang dihadapi selama melakukan penelitian
tugas akhir hingga dapat terselesaikannya laporan ini.
7. Semua teman-teman penulis yang tidak bisa disebutkan satu persatu, yang selalu
memberikan bantuan dengan perannya masing-masing sehingga penulis dapat
menyelesaikan laporan ini.
8. Seluruh pihak yang belum kami cantumkan, terima kasih atas dukungannya, baik
material maupun spiritual.
Kami menyadari bahwa dalam penulisan laporan ini masih banyak kesalahan dan
kekurangan, oleh karena itu kritik dan saran yang sifatnya membangun sangat kami
harapkan untuk kesempurnaan laporan ini. Akhirnya kami berharap semoga laporan ini
dapat memberikan sesuatu yang bermanfaat bagi siapa saja yang membacanya
Arif Hidayatullah
DAFTAR ISI
DAFTAR ISI......................................................................................................................... 4
Dimasa sekarang digital yang terus berkembang, teknologi kecerdasan buatan (AI)
telah menjadi salah satu inovasi yang paling revolusioner. disaat sekarang AI dapat
dimanfaatkan untuk mengenali suatu teks yang nantinnya akan bisa menghasilkan suara
yang telah dilatih melalui pengolahan bahasa alami (Natural Language Processing) yaitu
Teknologi TTS (Text To Speech)
Teknologi TTS terus berkembang dan semakin canggih, sehingga suara yang
dihasilkan semakin mirip dengan suara manusia (Fitriawati et al., 2020). Pengembangan
sistem TTS telah menjadi topik penelitian yang penting. TTS memungkinkan komputer
untuk menghasilkan ucapan yang menyerupai suara manusia dari teks yang diberikan.
Salah satu aspek penting dari pengembangan TTS adalah kemampuannya dalam merender
atau mengonversi teks ke dalam berbagai bahasa (Vecino et al., n.d.) dan dialek, termasuk
bahasa minoritas atau daerah seperti dialek bahasa Minangkabau yang digunakan di
Kabupaten Lima Puluh Kota, Sumatera Barat.
Penelitian terdahulu yang dilakukan oleh Wei Zhao dan Zheng Yang menjelaskan
tentang sistem baru yang disebut Emo-VITS, yang didasarkan pada modul sintesis ucapan
yang sangat ekspresif VITS, untuk merealisasikan kontrol emosi dalam sintesis teks-ke-
ucapan Dalam penelitian tersebut penulis. merancang jaringan emosi untuk mengekstrak
fitur global dan lokal dari audio referensi, dan kemudian menyatukan fitur global dan lokal
melalui modul fusi fitur emosi berdasarkan mekanisme perhatian, sehingga mencapai
sintesis ucapan emosi yang lebih akurat dan komprehensif (Zhao & Yang, 2023).
Beberapa penelitian terkait Text To Speech telah dilakukan diantaranya oleh (Mitsui et al.,
2022) yang membahas tentang pengembangan sistem Text-to- Speech (TTS) yang dapat
menghasilkan suara yang menyerupai percakapan manusia. Dalam penelitian tersebut,
digunakan model VAE-VITS yang dapat menghasilkan suara yang lebih natural dengan
mempertimbangkan faktorparalinguistik dan sejarah percakapan.
Selain penelitian di atas juga ada penelitian yang mendukung untuk melakukan
penelitian ini, yaitu penelitian dari Sudirman Melangi yang membahas tentang
pengembangan sistem sintesis ucapan bahasa Indonesia menggunakan teknologi Teks-to-
Speech (TTS). Hasil pengujian dari 45 responden menunjukkan bahwa sistem TTS yang
dikembangkan memiliki kriteria penilaian intelligibility dengan nilai MOS (Mean Opinion
Score) sebesar 3,66 dan naturalness dengan nilai MOS sebesar 3,57. Dengan demikian,
penelitian ini memberikan kontribusi dalam pengembangan teknologi TTS untuk bahasa
Indonesia (Sudirman Melangi, 2018).
Namun pengaplikasiannya pada bahasa minoritas atau dialek tertentu, seperti dialek
bahasa Minangkabau dari Kabupaten Lima Puluh Kota, masih terbatas. Oleh karena itu,
penelitian ini diharapkan dapat memberikan kontribusi yang signifikan dalam bidang TTS
dan pengolahan bahasa alami, khususnya dalam konteks pengembangan sistem TTS untuk
bahasa minoritas. Ini merupakan Upaya untuk memahami, memelihara, dan
mengembangkan keragaman bahasa di Indonesia juga merupakan bagian dari pelestarian
dan pengembangan budaya lokal (KAMPANYE SOSIAL Eleanora Josephine, 2022)
1. Data riset yang diperoleh merupakan Bahasa minang dari satu logat dari suatu
daerah saja pada wilayah kabupaten lima puluh kota
2. Usia dari orang yang akan membuat data suara rekaman pria berusia 40+ dan
memiliki kualifikasi pengetahuan dan pengalaman yang bisa diterima untuk
dijadikan pedoman.
3. Data Audio yang diperoleh hanya berkisar antara 200 -500 kalimat.
4. Hasil pengujian MOS (Mean Opinion Score) yang akan diambil hanya berkisar
dari 5 katgori level pengujian.
Speech pada
Gambar 2.II.1 Proses Text To Speech
MOS merupakan salah satu metode yang lebih efektif dalam mengevaluasi
peningkatan kinerja dan kemudahan penggunaannya seharusnya membbuat metode
MOS mudah digunakan oleh Pendengar yang bukan ahli. Nantinya ketika pengujian
meminta sebuah perbandingan langsung dari hasil yang diperoleh dari metode
dilakukan maka kesepakatan hasil yang akan ditafsirkan sebagai validasi metode
MOS (Salza et al., 1996). Validasi MOS yang terbukti merupakan teknik yang
handal dan sederhana untuk penilaian global kualitas TTS yang mampu memberikan
informasi yang lengkap tentang peneriamaan sistesis ucapan bahasa daerah dan
memperluas pemahaman pengguna (Sunardi et al., 2023). Perbandingan pengujian
ini juga membantu menunjukkan kemmapuan produksi ulang antar laboratorium dari
metode MOS. Para pendengar menggunakan MOS secara efektif, dan mampu
membedakan dengan jelas antara sistem yang berbeda dan antara komponen –
komponen sistem yang berbeda.
No Kualitas Nilai
1 Sangat Baik 5
2 Baik 4
3 Cukup 3
4 Buruk 2
5 Sangat Buruk 1
3.2 Persiapan
Persiapan yang dilakukan untuk mendukung penelinitian ini adalah sebagai
berikut :
3.3 Perekaman
Pada tahap ini, perekaman harus memenuhi sejumlah kriteria teknis untuk
mendukung pengembangan model TTS yang optimal. Dalam konteks ini, rekaman
audio harus disiapkan dalam format 16-bit, mono PCM WAV untuk memastikan
kualitas suara yang tinggi. Pemilihan format ini juga konsisten dengan kebutuhan
aplikasi TTS yang umumnya menggunakan format tersebut.
Selain aspek teknis, untuk mencapai rekaman dengan minim noise dan distorsi.
Background noise dan distorsi dapat memengaruhi kualitas suara yang dihasilkan
oleh model TTS, sehingga meminimalkan gangguan tersebut meningkatkan
kejelasan dan keakuratan suara. Perekaman juga harus memastikan tidak ada jeda
panjang pada awal, tengah, dan akhir rekaman, sehingga hasilnya lebih alami dan
dapat diintegrasikan secara mulus dalam penggunaan praktis TTS.
3.5 Pelatihan
Pada tahap pelatihan ini metode yang digunakan yaitu VITS. Model VITS
yang digunakan merupakan library yang terdapat pada coqui. Data suara yang telah
dikumpulkan pada tahap sebelumnya akan dilatih menggunakan pemrograman
bahasa python. Data suara tersebut akan dibagi menjadi dua set, yaitu set pelatihan
dan set pengujian. Pembagian data latih dan data uji yang akan digunakan adalah
sebesar 90% untuk pelatihan dan 10% untuk pengujian.
3.6 Pengujian
Tahap selanjutnya dalam penelitian ini melibatkan pengujian model dengan
menggunakan Metode MOS (Mean Opinion Score). MOS merupakan metode
evaluasi yang umum digunakan dalam bidang pemrosesan suara untuk mengukur
kualitas subjektif dari hasil rekaman atau sintesis audio. Dalam konteks ini, MOS
akan digunakan untuk mengumpulkan penilaian dari para responden terkait kualitas
audio yang dihasilkan oleh model VITS yang telah dilatih sebelumnya.
Ayub, A., Husin, N., Amir, M., Usman, H., Yasin, A., Pembinaan, P., & Bahasa, P. (1993).
Tata Bahasa Minangkabau.
Bloom, N., & Reenen, J. Van. (2013). 済無No Title No Title No Title. In NBER Working
Papers. http://www.nber.org/papers/w16019
El Hajal, K., Cernak, M., & Mainar, P. (2022). MOSRA: Joint Mean Opinion Score and
Room Acoustics Speech Quality Assessment. Proceedings of the Annual Conference of
the International Speech Communication Association, INTERSPEECH, 2022-Septe,
3313–3317. https://doi.org/10.21437/Interspeech.2022-10698
Fitriawati, L. S., Bijaksana, A., Negara, P., & Nyoto, R. D. (2020). InfoTekJar : Jurnal
Nasional Informatika dan Teknologi Jaringan Attribution-NonCommercial 4.0
International. Some rights reserved Implementasi Text To Speech Pada Website
Menggunakan Metode Shallow Parsing. 5(1).
https://doi.org/10.30743/infotekjar.v5i1.2141
KAIST. (2021). Vits. https://jaywalnut310.github.io/vits-demo/index.html
KAMPANYE SOSIAL Eleanora Josephine, P. (2022). Pelindungan Bahasa Daerah Untuk
Kaum Remaja Urban Di Indonesia. Jurnal Komunikasi Visual Wimba, 13(2), 61–77.
Khairani, Intan, A., Pratiwi Suci, N., Putri Aulia, N., Kuntarto, E., & Noviyanti, S. (2018).
PERAN, FUNGSI, DAN KEDUDUKAN BAHASA DALAM KEHIDUPAN SEHARI-
HARI Khairani1). 2.
Kim, J., Kong, J., & Son, J. (2021). Conditional Variational Autoencoder with Adversarial
Learning for End-to-End Text-to-Speech. Proceedings of Machine Learning Research.
Mitsui, K., Zhao, T., Sawada, K., Hono, Y., Nankaku, Y., & Tokuda, K. (2022). End-to-End
Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous
Dialogue. Proceedings of the Annual Conference of the International Speech
Communication Association, INTERSPEECH, 2022-Septe, 2328–2332.
https://doi.org/10.21437/Interspeech.2022-259
Putra, A. R., Priyono, W. A., & Kurniawan, D. F. (2014). Performansi Layanan Video
Conference Pada Jaringan Wide Area Network (Wan) Di Chevron Indonesia Company.
Jurnal Mahasiswa TEUB, 2(2), 1–6.
http://elektro.studentjournal.ub.ac.id/index.php/teub/article/view/219
Salza, P. L., Foti, E., Nebbia, L., & Oreglia, M. (1996). Metode Gabungan MOS dan
Perbandingan Pasangan untuk Evaluasi Kualitas Sistem Text-to-Speech. 82.
Sari, I. (2018). Aplikasi Kamus Bahasa Inggris Dilengkapi Dengan Fasilitas Teknologi Text
To Speech Berbasis Android. Jurnal Teknologi Dan Ilmu Komputer Prima
(JUTIKOMP), 1(1), 28–30. https://doi.org/10.34012/jutikomp.v1i1.316
Sudirman Melangi. (2018). Text To Speech Bahasa Indonesia Menggunakan Synthesizer
Concatenation Berbasis Fonem. Jurnal Teknik Elektro CosPhi, 2(2), 31–36.
Sunardi, L., Davit IRawan, & Indah Pratami. (2023). Pengenalan Bahasa Daerah
Lubuklinggau Dilengkapi Dengan Text To Speech Berbasis Android (Studi Kasus Dinas
Pendidikan Dan Kebudayaan Kota Lubuklinggau). JSAI (Journal Scientific and Applied
Informatics), 6(2), 147–153. https://doi.org/10.36085/jsai.v6i2.5017
Ulfa, M. (2019). Eksistensi Bahasa Daerah di Era Disrupsi. Stilistika: Jurnal Pendidikan
Bahasa Dan Sastra, 12(2). https://doi.org/10.30651/st.v12i2.2948
Vecino, B. T., Gabry, A., Daniel, M., Pomirski, A., Iddon, T., Cotescu, M., Lorenzo-trueba,
J., & Ai, A. (n.d.). Lightweight End-to-end Text-to-speech Synthesis for low resource
on-device applications.
Wallace, S. E., Hux, K., Knollman-Porter, K., Brown, J. A., Parisi, E., & Cain, R. (2022).
Reading behaviors and text-to-speech technology perceptions of people with aphasia.
Assistive Technology, 34(5). https://doi.org/10.1080/10400435.2021.1904306
Zhao, W., & Yang, Z. (2023). An Emotion Speech Synthesis Method Based on VITS.
Applied Sciences (Switzerland). https://doi.org/10.3390/app13042225