Anda di halaman 1dari 22

MAKALAH SINTESIS DSP BUNYI & SUARA MANUSIA

Dosen Pengampu : Dani Usman ST, MT.

disusun oleh :
Kelompok 3
1 Maulana Jalaludin [ 0201020038 ]
2 M Ramadhan Tamira [ 0201020040 ]
3 Ivan Mutaqin [ 0201020052 ]
4 Aldian [ 0201020027 ]
5 Sensen [ 02010200 ]

SEKOLAH TINGGI TEKNOLOGI DR. KHEZ MUTTAQIEN


Kampus I: Jl. Letjend Basuki Rahmat No 37 Sindang Kasih, Purwakarta Jawa Barat
41114
Kampus II: Jl. Baru Maracang, Ciwareng Babakan Cikao, Purwakarta Jawa Barat 41118
website: www.sttmuttaqien.ac.id | email: sttdrkhezmuttaqien@gmail.com
KATA PENGANTAR

Puji syukur tak lupa kita panjatkan kehadirat Allah SWT Tuhan Yang Maha Esa atas segala
rahmat-Nya sehingga makalah dengan judul “SHYNTHESIS DSP BUNYI & SUARA
MANUSIA” ini dapat tersusun hingga selesai. Penyusunan makalah ini bertujuan untuk
memenuhi nilai tugas dalam mata kuliah Pengelelolaan Sinyal Digital. Selain itu, pembuatan
makalah ini juga bertujuan agar menambah pengetahuan dan wawasan khususnya untuk kami
sebagai penyusun makalah umumnya bagi para pembaca.
Karena keterbatasan pengetahuan maupun pengalaman, pemahaman, dan pengetahuan maka
kami yakin masih banyak kekurangan dalam penyusunan makalah ini. Oleh karena itu, kami
sangat mengharapkan kritik dan saran yang membangun dari pembaca demi kesempuraan
makalah ini.
Akhir kata kami ucapkan terimkasih atas perhatian dan waktunya yeng telah berkenan
membaca makalah ini semoga dapat bermanfaat dan kami memohon maf apabila masih
banyaknya kekurangan yang ada pada makalah ini, wasalammualaikum Wr. Wb.

Purwakarta, 06 Juli 2023


DAFTAR ISI

KATA PENGANTAR ..........................................................................................................1


DAFTAR ISI.........................................................................................................................2
BAB I.
PENDAHULUAN.................................................................................................................3
SEJARAH..............................................................................................................................4
Perangkat Elektronik……………………………………………………………………….5
BAB II.
PEMBAHASAN...................................................................................................................6
Teknologi Syhnthesizer……………………………………………………………………..7
Sintesis Penggabungan…………………………………..………………………………….8
Sintesis Pemilihan Unit……………………………………………………………………..9
Sintesis Telepon……………………………………………………………………………10
Sintesis Khsus Domain……………………………………………………………….…….11
Sintesis Foman……………………………………………………………………………...12
Sintetis Artikulasi…………………………………………………………………………...13
Sintesis Berbasis HMM……………………………………………………………………..14
Sintesis Gelombang Sinus……………………………………………………………..……15
Audio Deepfake…………………………………………………………………………......16
BAB III
TANTANGAN........................................................................................................................17
Pengkat Keras & Perangkat Lunak……..................................................................................18
Sistem Teks ke Ucapan………………………………………………………………………19
BAB IV.
PENUTUP ..............................................................................................................................20
Kesimpulan ..............................................................................................................................21
Saran.........................................................................................................................................22
DAFTAR PUSTAKA .............................................................................................................23
BAB I
PENDAHULUAN

Sintesis ucapan adalah produksi buatan ucapan manusia . Sistem komputer yang
digunakan untuk tujuan ini disebut penyintesis ucapan , dan dapat diimplementasikan dalam
produk perangkat lunak atau perangkat keras . Sistem text-to-speech ( TTS ) mengubah teks
bahasa normal menjadi ucapan; sistem lain membuat representasi linguistik
simbolis seperti transkripsi fonetik menjadi ucapan.
Proses kebalikannya adalah pengenalan suara .
Pidato yang disintesis dapat dibuat dengan menggabungkan potongan-potongan rekaman
pidato yang disimpan dalam database. Sistem berbeda dalam ukuran unit ucapan yang
disimpan; sebuah sistem yang menyimpan ponsel atau diphone memberikan rentang keluaran
terbesar, tetapi mungkin kurang jelas. Untuk domain penggunaan tertentu, penyimpanan
seluruh kata atau kalimat memungkinkan keluaran berkualitas tinggi. Alternatifnya,
penyintesis dapat menggabungkan model saluran vokal dan karakteristik suara manusia
lainnya untuk membuat keluaran suara yang sepenuhnya "sintetis".
Kualitas penyintesis ucapan dinilai dari kemiripannya dengan suara manusia dan
kemampuannya untuk dipahami dengan jelas. Program text-to-speech yang dapat dimengerti
memungkinkan orang dengan gangguan penglihatan atau ketidakmampuan membaca untuk
mendengarkan kata-kata tertulis di komputer rumah. Banyak sistem operasi komputer telah
menyertakan penyintesis ucapan sejak awal 1990-an.

Tinjauan sistem TTS tipikal


Sistem text-to-speech (atau "mesin") terdiri dari dua bagian: front -end dan back-end . Front-
end memiliki dua tugas utama. Pertama, itu mengubah teks mentah yang berisi simbol seperti
angka dan singkatan menjadi setara dengan kata-kata tertulis. Proses ini sering
disebut normalisasi teks , pra-pemrosesan , atau tokenisasi . Front-end kemudian
menetapkan transkripsi fonetik untuk setiap kata, dan membagi serta menandai teks
menjadi unit prosodik , seperti frasa , klausa , dan kalimat . Proses pemberian transkripsi
fonetik ke kata-kata disebutkonversi teks-ke-fonem atau grafem -ke-fonem . Transkripsi fonetik
dan informasi prosodi bersama-sama membentuk representasi linguistik simbolik yang
dihasilkan oleh front-end. Back-end — sering disebut sebagai penyintesis — kemudian
mengubah representasi linguistik simbolik menjadi suara. Dalam sistem tertentu, bagian ini
mencakup penghitungan prosodi target (kontur nada, durasi fonem), yang kemudian
dikenakan pada keluaran ucapan.

Sejarah
Jauh sebelum penemuan pemrosesan sinyal elektronik , beberapa orang mencoba membuat
mesin untuk meniru ucapan manusia. Beberapa legenda awal tentang keberadaan " Kepala
Brazen " melibatkan Paus Silvester II (w. 1003 M), Albertus Magnus (1198–1280), dan Roger
Bacon (1214–1294).
Pada tahun 1779, ilmuwan Jerman - Denmark Christian Gottlieb Kratzenstein memenangkan
hadiah pertama dalam kompetisi yang diumumkan oleh Akademi Ilmu Pengetahuan dan Seni
Kekaisaran Rusia untuk model saluran vokal manusia yang dapat menghasilkan lima
bunyi vokal panjang (dalam notasi Alfabet Fonetik Internasional ).
: [aː] , [eː] , [iː] , [oː] dan [uː] ). Diikuti oleh " mesin bicara akustik-mekanis " yang
dioperasikan oleh bellow dari Wolfgang von Kempelendari Pressburg , Hongaria, dijelaskan
dalam makalah tahun 1791. Mesin ini menambahkan model lidah dan bibir,
memungkinkannya menghasilkan konsonan serta vokal. Pada tahun 1837, Charles
Wheatstone memproduksi "mesin berbicara" berdasarkan rancangan von Kempelen, dan pada
tahun 1846, Joseph Faber memamerkan "Euponia " . Pada tahun 1923 Paget menghidupkan
kembali desain Wheatstone.
Pada tahun 1930-an Bell Labs mengembangkan vocoder , yang secara otomatis menganalisis
ucapan menjadi nada dan resonansi dasarnya. Dari karyanya pada vocoder, Homer
Dudley mengembangkan alat penyantesis suara yang dioperasikan dengan keyboard
bernama The Voder (Demonstrasi Suara), yang ia pamerkan di Pameran Dunia New York
1939 .
Franklin S. Cooper dan rekan-rekannya di Haskins Laboratories membuat pemutaran
Pola pada akhir 1940-an dan menyelesaikannya pada tahun 1950. Ada beberapa versi berbeda
dari perangkat keras ini; saat ini hanya satu yang bertahan. Mesin mengubah gambar pola
akustik ucapan dalam bentuk spektogram kembali menjadi suara. Menggunakan perangkat
ini, Alvin Liberman dan rekannya menemukan isyarat akustik untuk persepsi
segmen fonetik (konsonan dan vokal).
Perangkat elektronik

Housing penyintesis suara dan komputer yang digunakan oleh Stephen Hawking pada tahun
1999
Sistem sintesis ucapan berbasis komputer pertama berasal dari akhir 1950-an. Noriko
Umeda dkk. mengembangkan sistem text-to-speech bahasa Inggris umum pertama pada tahun
1968, di Laboratorium Elektroteknik di Jepang. Pada tahun 1961, fisikawan John Larry Kelly,
Jr dan rekannya Louis Gerstman menggunakan komputer IBM 704 untuk menyintesis ucapan,
sebuah peristiwa yang paling menonjol dalam sejarah Bell Labs .Kelly's voice recorder
synthesizer ( vocoder ) menciptakan kembali lagu " Daisy Bell ", dengan iringan musik
dariMax Mathews . Secara kebetulan, Arthur C. Clarke sedang mengunjungi teman dan
koleganya John Pierce di fasilitas Bell Labs Murray Hill. Clarke sangat terkesan dengan
demonstrasi yang dia gunakan dalam adegan klimaks dari skenario untuk novelnya 2001: A
Space Odyssey , di mana komputer HAL 9000 menyanyikan lagu yang sama dengan
astronot Dave Bowman menidurkannya. Meskipun keberhasilan sintesis ucapan elektronik
murni, penelitian tentang penyintesis ucapan mekanis terus berlanjut.
Linear predictive coding (LPC), suatu bentuk pengkodean ucapan , mulai dikembangkan
dengan karya Fumitada Itakura dari Universitas Nagoya dan Shuzo Saito dari Nippon
Telegraph and Telephone (NTT) pada tahun 1966. Perkembangan lebih lanjut dalam teknologi
LPC dibuat oleh Bishnu S. Atal dan Manfred R. Schroeder di Bell Labs selama tahun 1970-
an. LPC kemudian menjadi dasar chip synthesizer ucapan awal, seperti Texas Instruments
LPC Speech Chips yang digunakan dalam mainan Speak & Spell dari tahun 1978.
Pada tahun 1975, Fumitada Itakura mengembangkan metode line spectral pairs (LSP) untuk
pengkodean suara kompresi tinggi, saat di NTT. Dari tahun 1975 hingga 1981, Itakura
mempelajari masalah dalam analisis dan sintesis ucapan berdasarkan metode LSP. Pada tahun
1980, timnya mengembangkan chip synthesizer ucapan berbasis LSP. LSP adalah teknologi
penting untuk sintesis dan pengkodean ucapan, dan pada 1990-an diadopsi oleh hampir semua
standar pengkodean ucapan internasional sebagai komponen penting, berkontribusi pada
peningkatan komunikasi ucapan digital melalui saluran seluler dan internet.
Pada tahun 1975, MUSA dirilis, dan merupakan salah satu sistem Speech Synthesis
pertama. Itu terdiri dari perangkat keras komputer yang berdiri sendiri dan perangkat lunak
khusus yang memungkinkannya membaca bahasa Italia. Versi kedua, dirilis pada tahun 1978,
juga mampu menyanyikan lagu Italia dengan gaya " a cappella ".

Sistem yang dominan pada tahun 1980-an dan 1990-an adalah sistem DECtalk , sebagian besar
didasarkan pada karya Dennis Klatt di MIT, dan sistem Bell Labs; yang terakhir adalah salah
satu sistem independen bahasa multibahasa pertama, menggunakan metode pemrosesan bahasa
alami secara ekstensif .
Fidelity Voice Chess Challenger (1979), komputer catur berbicara pertama
0:28
Keluaran ucapan dari Fidelity Voice Chess Challenger
Elektronik genggam yang menampilkan sintesis ucapan mulai muncul pada tahun 1970-
an. Salah satu yang pertama adalah kalkulator portabel Telesensory Systems
Inc. (TSI) Speech+ untuk tunanetra pada tahun 1976. [19] [20] Perangkat lain memiliki tujuan
utama pendidikan, seperti mainan Speak & Spell yang diproduksi oleh Texas Instruments pada
tahun 1978. [ 21] Fidelity merilis versi berbicara dari komputer catur elektroniknya pada tahun
1979. [22] Video game pertama yang menampilkan sintesis ucapan adalah game arkade shoot
'em up tahun 1980 , Stratovox (dikenal di Jepang sebagai Speak & Rescue), dari Sun
Electronics . [23] [24] Gim komputer pribadi pertama dengan sintesis ucapan adalah Manbiki
Shoujo ( Gadis Pengutil ), dirilis pada 1980 untuk PET 2001 , di mana pengembang gim
tersebut, Hiroshi Suzuki, mengembangkan teknik pemrograman " zero cross " untuk
menghasilkan bentuk gelombang ucapan yang disintesis. [25] Contoh awal lainnya, versi arcade
dari Berzerk , juga berasal dari tahun 1980. Perusahaan Milton Bradley memproduksi game
elektronik multipemain pertama yang menggunakan sintesis suara, Milton , pada tahun yang
sama.
Alat penyintesis ucapan elektronik awal terdengar seperti robot dan seringkali hampir tidak
dapat dipahami. Kualitas ucapan yang disintesis terus meningkat, tetapi pada tahun
2016 keluaran dari sistem sintesis ucapan kontemporer tetap dapat dibedakan dengan jelas dari
ucapan manusia yang sebenarnya.
Suara yang disintesis biasanya terdengar laki-laki hingga tahun 1990, ketika Ann Syrdal ,
di AT&T Bell Laboratories , menciptakan suara perempuan. [26]
Kurzweil memperkirakan pada tahun 2005 bahwa karena rasio biaya-kinerja menyebabkan
penyintesis ucapan menjadi lebih murah dan lebih mudah diakses, lebih banyak orang akan
mendapat manfaat dari penggunaan program text-to-speech.
BAB II
PEMBAHASAN

teknologi Synthesizer
Kualitas terpenting dari sistem sintesis ucapan adalah kealamian dan kejelasan . Kealamian
menggambarkan seberapa dekat output terdengar seperti ucapan manusia, sedangkan kejelasan
adalah kemudahan output dipahami. Synthesizer ucapan yang ideal bersifat alami dan dapat
dipahami. Sistem sintesis ucapan biasanya mencoba memaksimalkan kedua karakteristik
tersebut.
Dua teknologi utama yang menghasilkan bentuk gelombang ucapan sintetik adalah sintesis
gabungan dan sintesis formant . Setiap teknologi memiliki kekuatan dan kelemahan, dan
tujuan penggunaan sistem sintesis biasanya akan menentukan pendekatan mana yang
digunakan.
Sintesis penggabungan
Artikel utama: Sintesis gabungan
Sintesis gabungan didasarkan pada penggabungan (merangkai) segmen-segmen ucapan yang
direkam. Secara umum, sintesis gabungan menghasilkan ucapan sintesis yang terdengar paling
alami. Namun, perbedaan antara variasi alami dalam ucapan dan sifat teknik otomatis untuk
membagi bentuk gelombang kadang-kadang mengakibatkan gangguan yang terdengar pada
output. Ada tiga sub-tipe utama dari sintesis gabungan.
Sintesis pemilihan unit
Sintesis pemilihan unit menggunakan database rekaman suara yang besar. Selama pembuatan
basis data, setiap ucapan yang direkam disegmentasi menjadi beberapa atau semua hal
berikut: telepon individu , difon , setengah telepon, suku kata , morfem , kata , frasa ,
dan kalimat . Biasanya, pembagian menjadi segmen-segmen dilakukan dengan
menggunakan pengenal ucapan yang dimodifikasi khusus yang diatur ke mode "penyelarasan
paksa" dengan beberapa koreksi manual setelahnya, menggunakan representasi visual seperti
bentuk gelombang dan spektogram . Indeksunit-unit dalam database ucapan kemudian dibuat
berdasarkan segmentasi dan parameter akustik seperti frekuensi dasar ( pitch ), durasi, posisi
dalam suku kata, dan telepon yang berdekatan. Pada saat runtime , target ujaran yang
diinginkan dibuat dengan menentukan rantai unit kandidat terbaik dari database (pemilihan
unit). Proses ini biasanya dicapai dengan menggunakan pohon keputusan berbobot khusus .
Pemilihan unit memberikan kealamian terbesar, karena hanya menerapkan sejumlah
kecil pemrosesan sinyal digital (DSP) ke ucapan yang direkam. DSP sering membuat ucapan
yang direkam terdengar kurang alami, meskipun beberapa sistem menggunakan sedikit
pemrosesan sinyal pada titik penggabungan untuk menghaluskan bentuk gelombang. Keluaran
dari sistem pemilihan unit terbaik seringkali tidak dapat dibedakan dari suara manusia yang
sebenarnya, terutama dalam konteks di mana sistem TTS telah disetel. Namun, kealamian
maksimum biasanya membutuhkan basis data ucapan pemilihan unit yang sangat besar, dalam
beberapa sistem berkisar hingga gigabyte data yang direkam, mewakili lusinan jam
bicara. Juga, algoritma pemilihan unit telah dikenal untuk memilih segmen dari tempat yang
menghasilkan sintesis yang kurang ideal (misalnya kata-kata minor menjadi tidak jelas) bahkan
ketika ada pilihan yang lebih baik dalam database. Baru-baru ini, para peneliti telah
mengusulkan berbagai metode otomatis untuk mendeteksi segmen yang tidak alami dalam
sistem sintesis ucapan pemilihan unit.
Sintesis telepon
Sintesis diphone menggunakan basis data ucapan minimal yang berisi semua diphone (transisi
suara ke suara) yang terjadi dalam suatu bahasa. Jumlah difon bergantung
pada fonotaktik bahasa: misalnya, bahasa Spanyol memiliki sekitar 800 difon, dan bahasa
Jerman sekitar 2500. Dalam sintesis difon, hanya satu contoh dari setiap difon yang terdapat
dalam basis data ucapan. Saat runtime, prosodi target dari sebuah kalimat ditumpangkan pada
unit minimal ini melalui teknik pemrosesan sinyal digital seperti pengkodean prediktif
linier , PSOLA atau MBROLA . [34]atau teknik yang lebih baru seperti modifikasi nada dalam
domain sumber menggunakan transformasi cosinus diskrit . Sintesis diphone mengalami
gangguan sonik sintesis gabungan dan sifat sintesis formant yang terdengar seperti robot, dan
memiliki sedikit keuntungan dari kedua pendekatan tersebut selain ukurannya yang
kecil. Dengan demikian, penggunaannya dalam aplikasi komersial menurun, Meskipun terus
digunakan dalam penelitian karena ada sejumlah implementasi perangkat lunak yang tersedia
secara bebas. Contoh awal sintesis Diphone adalah robot pengajaran, Leachim, yang
ditemukan oleh Michael J. Freeman . Leachim berisi informasi tentang kurikuler kelas dan
informasi biografis tertentu tentang siswa yang diprogram untuk diajar. Itu diuji di ruang kelas
empat di Bronx, New York .
Sintesis khusus domain
Sintesis khusus domain menyatukan kata dan frasa yang direkam sebelumnya untuk membuat
ucapan lengkap. Ini digunakan dalam aplikasi di mana variasi teks yang akan dihasilkan sistem
terbatas pada domain tertentu, seperti pengumuman jadwal transit atau laporan
cuaca. Teknologi ini sangat sederhana untuk diimplementasikan, dan telah lama digunakan
secara komersial, di perangkat seperti jam bicara dan kalkulator. Tingkat kealamian sistem ini
bisa sangat tinggi karena ragam jenis kalimatnya terbatas, dan sangat cocok dengan prosodi
dan intonasi rekaman aslinya.
Karena sistem ini dibatasi oleh kata dan frasa dalam basis datanya, sistem ini tidak bertujuan
umum dan hanya dapat menyintesis kombinasi kata dan frasa yang telah diprogram
sebelumnya. Pencampuran kata-kata dalam bahasa yang diucapkan secara alami masih dapat
menimbulkan masalah kecuali banyak variasi yang diperhitungkan. Misalnya, dalam
dialek non-rhotik bahasa Inggris , "r" pada kata seperti "clear" /ˈklɪə/ biasanya hanya
dilafalkan jika kata berikutnya memiliki vokal sebagai huruf pertamanya (mis. "clear
out" direalisasikan menjadi /ˌklɪəɹˈʌʊt/ ). Demikian pula dalam bahasa Prancis, banyak
konsonan akhir menjadi tidak lagi diam jika diikuti oleh kata yang diawali dengan vokal, efek
yang disebut liaison . Pergantian ini tidak dapat direproduksi dengan sistem rangkaian kata
sederhana, yang akan membutuhkan kerumitan tambahan agar peka terhadap konteks .
Sintesis forman
Sintesis formant tidak menggunakan sampel ucapan manusia saat runtime. Alih-alih, keluaran
ucapan yang disintesis dibuat menggunakan sintesis aditif dan model akustik ( sintesis
pemodelan fisik ). Parameter seperti frekuensi fundamental , suara , dan
tingkat kebisingan bervariasi dari waktu ke waktu untuk membuat bentuk gelombang ucapan
buatan. Metode ini terkadang disebut sintesis berbasis aturan; namun, banyak sistem
gabungan juga memiliki komponen berbasis aturan. Banyak sistem yang didasarkan pada
teknologi sintesis formant menghasilkan ucapan buatan yang terdengar seperti robot yang tidak
akan pernah disalahartikan sebagai ucapan manusia. Namun, kealamian maksimum tidak
selalu menjadi tujuan dari sistem sintesis ucapan, dan sistem sintesis formant memiliki
keunggulan dibandingkan sistem gabungan. Pidato yang disintesis oleh formant dapat
dipahami secara andal, bahkan pada kecepatan yang sangat tinggi, menghindari gangguan
akustik yang biasanya mengganggu sistem rangkaian. Suara sintesis berkecepatan tinggi
digunakan oleh tunanetra untuk menavigasi komputer dengan cepat menggunakan pembaca
layar . Forman synthesizer biasanya merupakan program yang lebih kecil daripada sistem
concatenative karena mereka tidak memiliki database sampel ucapan. Oleh karena itu mereka
dapat digunakan disistem tertanam , di mana memori dan daya mikroprosesor sangat
terbatas. Karena sistem berbasis forman memiliki kendali penuh atas semua aspek keluaran
ucapan, berbagai prosodi dan intonasi dapat dikeluarkan, tidak hanya menyampaikan
pertanyaan dan pernyataan, tetapi juga berbagai emosi dan nada suara.
Contoh kontrol intonasi non-real-time tetapi sangat akurat dalam sintesis formant termasuk
pekerjaan yang dilakukan pada akhir 1970-an untuk mainan Texas Instruments Speak & Spell ,
dan pada awal 1980-an mesin arcade Sega dan di banyak Atari, Inc. game
arcade menggunakan TMS5220 LPC Chips . Membuat intonasi yang tepat untuk proyek-
proyek ini sangat melelahkan, dan hasilnya belum dicocokkan dengan antarmuka text-to-
speech real-time.
Sintesis artikulasi
Sintesis artikulatori mengacu pada teknik komputasi untuk mensintesis ucapan berdasarkan
model saluran vokal manusia dan proses artikulasi yang terjadi di sana. Synthesizer artikulasi
pertama yang biasa digunakan untuk eksperimen laboratorium dikembangkan di Haskins
Laboratories pada pertengahan 1970-an oleh Philip Rubin , Tom Baer, dan Paul
Mermelstein. Synthesizer ini, yang dikenal sebagai ASY, didasarkan pada model saluran vokal
yang dikembangkan di Bell Laboratories pada 1960-an dan 1970-an oleh Paul Mermelstein,
Cecil Coker, dan rekannya.
Sampai saat ini, model sintesis artikulasi belum dimasukkan ke dalam sistem sintesis ucapan
komersial. Pengecualian penting adalah sistem berbasis NeXT yang awalnya dikembangkan
dan dipasarkan oleh Trillium Sound Research, sebuah perusahaan spin-off dari University of
Calgary , tempat banyak penelitian asli dilakukan. Menyusul bubarnya berbagai inkarnasi
NeXT (dimulai oleh Steve Jobs pada akhir 1980-an dan bergabung dengan Apple Computer
pada 1997), perangkat lunak Trillium diterbitkan di bawah Lisensi Publik Umum GNU, dengan
pekerjaan berlanjut sebagai gnuspeech. Sistem ini, pertama kali dipasarkan pada tahun 1994,
menyediakan konversi text-to-speech berbasis artikulasi penuh menggunakan pandu
gelombang atau analog saluran transmisi dari saluran mulut dan hidung manusia yang
dikendalikan oleh "model wilayah khusus" Carré.
Synthesizer yang lebih baru, yang dikembangkan oleh Jorge C. Lucero dan rekannya,
menggabungkan model biomekanik lipatan vokal, aerodinamika glottal, dan perambatan
gelombang akustik di bronkus, trakea, rongga hidung dan rongga mulut, dan dengan demikian
membentuk sistem penuh simulasi ucapan berbasis fisika.
sintesis berbasis HMM
Sintesis berbasis HMM adalah metode sintesis berdasarkan model Markov tersembunyi , juga
disebut Sintesis Parametrik Statistik. Dalam sistem ini, spektrum frekuensi ( saluran
vokal ), frekuensi dasar (sumber suara), dan durasi ( prosodi ) ucapan dimodelkan secara
bersamaan oleh HMM. Bentuk gelombang ucapan dihasilkan dari HMM sendiri berdasarkan
kriteria kemungkinan maksimum .
Sintesis gelombang sinus
Sintesis gelombang sinus adalah teknik untuk mensintesis ucapan dengan
mengganti forman (pita energi utama) dengan peluit nada murni.
Sintesis berbasis pembelajaran mendalam
Sintesis ucapan pembelajaran mendalam menggunakan jaringan saraf dalam (DNN) untuk
menghasilkan ucapan buatan dari teks (text-to-speech) atau spektrum (vocoder). Jaringan
syaraf dalam dilatih menggunakan rekaman suara dalam jumlah besar dan, dalam kasus sistem
text-to-speech, label terkait dan/atau teks masukan.
Synthesizer ucapan berbasis DNN mendekati kealamian suara manusia. Contoh kerugian dari
metode ini adalah ketahanan yang rendah ketika data tidak mencukupi, kurangnya kontrol dan
kinerja yang rendah dalam model regresi otomatis.
Untuk bahasa tonal, seperti bahasa Cina atau Taiwan, ada tingkat nada sandhi yang berbeda
yang diperlukan dan kadang-kadang keluaran penyintesis ucapan dapat menyebabkan
kesalahan nada sandhi.
Audio deepfake
Bagian ini adalah kutipan dari Audio deepfake .
Audio deepfake (juga dikenal sebagai kloning suara) adalah jenis kecerdasan buatan yang
digunakan untuk membuat kalimat ucapan meyakinkan yang terdengar seperti orang tertentu
mengatakan hal-hal yang tidak mereka katakan. Teknologi ini awalnya dikembangkan untuk
berbagai aplikasi guna meningkatkan kehidupan manusia. Misalnya, dapat digunakan untuk
memproduksi buku audio, dan juga untuk membantu orang yang kehilangan suaranya (karena
penyakit tenggorokan atau masalah medis lainnya) untuk mendapatkannya kembali. Secara
komersial, ini telah membuka pintu bagi beberapa peluang. Teknologi ini juga dapat membuat
asisten digital yang lebih personal dan juga text-to-speech yang terdengar alamilayanan
terjemahan pidato .
Audio deepfake, yang baru-baru ini disebut manipulasi audio, kini dapat diakses secara luas
menggunakan perangkat seluler sederhana atau komputer pribadi . Alat-alat ini juga telah
digunakan untuk menyebarkan informasi yang salah menggunakan audio. Hal ini
menyebabkan kekhawatiran keamanan dunia maya di kalangan publik global tentang efek
samping penggunaan audio deepfake, termasuk kemungkinan perannya dalam
menyebarkan misinformasi dan disinformasi dalam platform media sosial berbasis
audio. Orang dapat menggunakannya sebagai teknik spoofing suara akses logis , di mana
mereka dapat digunakan untuk memanipulasi opini publik untuk propaganda, pencemaran
nama baik, atau terorisme . Rekaman suara dalam jumlah besar dikirim setiap hari melalui
Internet, dan deteksi spoofing sulit dilakukan. Penyerang deepfake audio telah menargetkan
individu dan organisasi, termasuk politisi dan pemerintah.Pada awal tahun 2020, beberapa
scammer menggunakan perangkat lunak berbasis kecerdasan buatan untuk menyamar sebagai
suara CEO untuk mengesahkan transfer uang sekitar $35 juta melalui panggilan
telepon. Menurut McAfee global 2023survei, satu dari sepuluh orang melaporkan telah
menjadi sasaran penipuan kloning suara AI; 77% dari target ini melaporkan kehilangan uang
karena penipuan. Audio deepfake juga dapat menimbulkan bahaya bagi sistem ID suara yang
saat ini digunakan untuk konsumen keuangan.
BAB III
TANTANGAN

Tantangan
Tantangan normalisasi teks
Proses normalisasi teks jarang dilakukan secara langsung. Teks penuh
dengan heteronim , angka , dan singkatan yang semuanya membutuhkan perluasan menjadi
representasi fonetik. Ada banyak ejaan dalam bahasa Inggris yang diucapkan berbeda
berdasarkan konteks. Misalnya, "Proyek terbaru saya adalah mempelajari cara
memproyeksikan suara saya dengan lebih baik" berisi dua pengucapan dari "proyek".
Sebagian besar sistem text-to-speech (TTS) tidak menghasilkan representasi semantik dari teks
inputnya, karena proses untuk melakukannya tidak dapat diandalkan, kurang dipahami, dan
tidak efektif secara komputasi. Akibatnya, berbagai teknik heuristik digunakan untuk menebak
cara yang tepat untuk membedakan homograf , seperti memeriksa kata tetangga dan
menggunakan statistik tentang frekuensi kejadian.
Baru-baru ini sistem TTS telah mulai menggunakan HMM (dibahas di atas) untuk
menghasilkan " part of speech " untuk membantu homograf yang tidak ambigu. Teknik ini
cukup berhasil untuk banyak kasus seperti apakah "baca" harus diucapkan sebagai "merah"
yang menyiratkan bentuk lampau, atau sebagai "reed" yang menyiratkan bentuk
sekarang. Tingkat kesalahan umum saat menggunakan HMM dengan cara ini biasanya di
bawah lima persen. Teknik-teknik ini juga bekerja dengan baik untuk sebagian besar bahasa
Eropa, meskipun akses ke kumpulan pelatihan yang diperlukan seringkali sulit dalam bahasa-
bahasa ini.
Memutuskan bagaimana mengonversi angka adalah masalah lain yang harus diatasi oleh sistem
TTS. Ini adalah tantangan pemrograman sederhana untuk mengubah angka menjadi kata
(setidaknya dalam bahasa Inggris), seperti "1325" menjadi "seribu tiga ratus dua puluh
lima". Namun, angka muncul dalam banyak konteks yang berbeda; "1325" juga dapat dibaca
sebagai "satu tiga dua lima", "tiga belas dua puluh lima" atau "tiga belas ratus dua puluh
lima". Sistem TTS seringkali dapat menyimpulkan cara memperluas angka berdasarkan kata,
angka, dan tanda baca di sekitarnya, dan terkadang sistem menyediakan cara untuk menentukan
konteks jika ambigu. Angka romawi juga dapat dibaca berbeda tergantung pada
konteksnya. Misalnya, "Henry VIII" dibaca sebagai "Henry the Eighth",
Demikian pula, singkatan bisa ambigu. Misalnya, singkatan "dalam" untuk "inci" harus
dibedakan dari kata "dalam", dan alamat "12 St John St." menggunakan singkatan yang sama
untuk "Saint" dan "Street". Sistem TTS dengan ujung depan yang cerdas dapat membuat
tebakan cerdas tentang singkatan yang ambigu, sementara yang lain memberikan hasil yang
sama di semua kasus, menghasilkan keluaran yang tidak masuk akal (dan terkadang lucu),
seperti " Ulysses S. Grant " yang diterjemahkan sebagai "Ulysses South Grant " .
Tantangan teks-ke-fonem
Sistem sintesis ucapan menggunakan dua pendekatan dasar untuk menentukan pengucapan
suatu kata berdasarkan ejaannya , sebuah proses yang sering disebut konversi teks-ke-fonem
atau grafem -ke-fonem ( fonem adalah istilah yang digunakan oleh ahli bahasa untuk
mendeskripsikan bunyi-bunyi khas dalam bahasa Inggris). sebuah bahasa ). Pendekatan paling
sederhana untuk konversi teks ke fonem adalah pendekatan berbasis kamus, di mana kamus
besar berisi semua kata dari suatu bahasa dan pengucapannya yang benar .disimpan oleh
program. Menentukan pengucapan yang benar dari setiap kata adalah dengan mencari setiap
kata dalam kamus dan mengganti ejaan dengan pengucapan yang ditentukan dalam
kamus. Pendekatan lainnya adalah berbasis aturan, di mana aturan pelafalan diterapkan pada
kata-kata untuk menentukan pelafalannya berdasarkan ejaannya. Ini mirip dengan pendekatan
"sounding out", atau sintetis phonics , untuk belajar membaca.
Setiap pendekatan memiliki kelebihan dan kekurangan. Pendekatan berbasis kamus cepat dan
akurat, tetapi gagal total jika diberikan kata yang tidak ada dalam kamusnya. Seiring
bertambahnya ukuran kamus, demikian pula persyaratan ruang memori dari sistem sintesis. Di
sisi lain, pendekatan berbasis aturan bekerja pada input apa pun, tetapi kompleksitas aturan
tumbuh secara substansial karena sistem memperhitungkan ejaan atau pengucapan yang tidak
teratur. (Pertimbangkan bahwa kata "dari" sangat umum dalam bahasa Inggris, namun
merupakan satu-satunya kata yang huruf "f" diucapkan [v] .) Akibatnya, hampir semua sistem
sintesis ucapan menggunakan kombinasi dari pendekatan ini.
Bahasa dengan ortografi fonemik memiliki sistem penulisan yang sangat teratur, dan prediksi
pengucapan kata berdasarkan ejaannya cukup berhasil. Sistem sintesis ucapan untuk bahasa
semacam itu sering menggunakan metode berbasis aturan secara ekstensif, menggunakan
kamus hanya untuk beberapa kata, seperti nama asing dan kata serapan, yang pengucapannya
tidak jelas dari ejaannya. Di sisi lain, sistem sintesis ucapan untuk bahasa seperti bahasa
Inggris, yang memiliki sistem ejaan yang sangat tidak teratur, lebih cenderung mengandalkan
kamus, dan menggunakan metode berbasis aturan hanya untuk kata-kata yang tidak biasa, atau
kata-kata yang tidak ada dalam kamus mereka.
Tantangan evaluasi
Evaluasi yang konsisten dari sistem sintesis ucapan mungkin sulit karena kurangnya kriteria
evaluasi objektif yang disepakati secara universal. Organisasi yang berbeda sering
menggunakan data ucapan yang berbeda. Kualitas sistem sintesis ucapan juga bergantung pada
kualitas teknik produksi (yang mungkin melibatkan perekaman analog atau digital) dan pada
fasilitas yang digunakan untuk memutar ulang ucapan. Oleh karena itu, mengevaluasi sistem
sintesis ucapan sering dikompromikan oleh perbedaan antara teknik produksi dan fasilitas
replay.
Namun sejak tahun 2005, beberapa peneliti telah mulai mengevaluasi sistem sintesis ucapan
menggunakan kumpulan data ucapan umum.
Prosodik dan konten emosional
Lihat juga: Pengenalan ucapan emosional dan Prosodi (linguistik)
Sebuah studi dalam jurnal Speech Communication oleh Amy Drahota dan rekannya
di University of Portsmouth , Inggris , melaporkan bahwa pendengar rekaman suara dapat
menentukan, pada tingkat yang lebih baik daripada peluang, apakah pembicara tersenyum atau
tidak. [66] [67] [68] Disarankan bahwa identifikasi fitur vokal yang menandakan konten emosional
dapat digunakan untuk membantu membuat ucapan yang disintesis terdengar lebih
alami. Salah satu isu terkait adalah modifikasi kontur nada kalimat, tergantung apakah itu
kalimat afirmatif, interogatif atau seruan. Salah satu teknik untuk modifikasi
nada menggunakan transformasi kosinus diskritdalam domain sumber ( residu prediksi
linier ). Teknik modifikasi nada sinkron nada seperti itu memerlukan penandaan nada apriori
dari basis data ucapan sintesis menggunakan teknik seperti ekstraksi zaman menggunakan
indeks plosion dinamis yang diterapkan pada residu prediksi linier terintegrasi dari wilayah
suara yang disuarakan .

Perangkat keras khusus


Kit sintesis ucapan yang diproduksi oleh Bell System

• Icophone
• Instrumen Umum SP0256-AL2
• National Semiconductor DT1050 Digitalker (Mozer – Forrest Mozer )
• Keripik Pidato LPC Texas Instruments

Sistem perangkat keras dan perangkat lunak


Sistem populer yang menawarkan sintesis ucapan sebagai kemampuan bawaan.

Instrumen Texas
Artikel utama: Texas Instruments LPC Speech Chips
0:04

Demo ucapan TI-99/4A menggunakan kosakata bawaan

Pada awal 1980-an, TI dikenal sebagai pelopor dalam sintesis ucapan, dan modul penyintesis
ucapan plug-in yang sangat populer tersedia untuk TI-99/4 dan 4A. Synthesizer ucapan
ditawarkan gratis dengan pembelian sejumlah kartrid dan digunakan oleh banyak video game
buatan TI (game yang ditawarkan dengan ucapan selama promosi ini
termasuk Alpiner dan Parsec ). Synthesizer menggunakan varian pengkodean prediktif linier dan
memiliki kosa kata bawaan yang kecil. Tujuan awalnya adalah untuk melepaskan kartrid kecil
yang dicolokkan langsung ke unit penyintesis, yang akan meningkatkan kosa kata bawaan
perangkat. Namun, kesuksesan perangkat lunak text-to-speech di kartrid Terminal Emulator II
membatalkan rencana itu.

Mattel
Konsol game Mattel Intellivision menawarkan modul Sintesis Suara Intellivoice pada tahun 1982.
Ini termasuk chip synthesizer ucapan SP0256 Narator pada kartrid yang dapat dilepas. Narator
memiliki 2kB Read-Only Memory (ROM), dan ini digunakan untuk menyimpan database kata
umum yang dapat digabungkan untuk membuat frasa dalam game Intellivision. Karena chip
Orator juga dapat menerima data ucapan dari memori eksternal, kata atau frasa tambahan apa
pun yang diperlukan dapat disimpan di dalam kartrid itu sendiri. Data terdiri dari string koefisien
analog-filter untuk memodifikasi perilaku model saluran vokal sintetik chip, daripada sampel
digital sederhana.

SAM
0:18

Demo SAM di C64

Juga dirilis pada tahun 1982, Software Automatic Mouth adalah program sintesis suara semua
perangkat lunak komersial pertama. Itu kemudian digunakan sebagai dasar
untuk Macintalk. Program ini tersedia untuk komputer Apple non-Macintosh (termasuk Apple II,
dan Lisa), berbagai model Atari, dan Commodore 64. Versi Apple lebih menyukai perangkat
keras tambahan yang berisi DAC, meskipun program ini dapat menggunakan audio satu-bit
komputer. keluaran (dengan penambahan banyak distorsi) jika kartu tidak ada. Atari
memanfaatkan chip audio POKEY tertanam. Pemutaran ucapan pada Atari biasanya
menonaktifkan permintaan interupsi dan mematikan chip ANTIC selama output vokal. Output
yang dapat didengar adalah ucapan yang sangat terdistorsi saat layar menyala. Commodore 64
memanfaatkan chip audio SID 64 yang tertanam.

Atari
Dapat dikatakan, sistem ucapan pertama yang diintegrasikan ke dalam sistem operasi adalah
komputer pribadi 1400XL/1450XL yang dirancang oleh Atari, Inc. menggunakan chip Votrax
SC01 pada tahun 1983. Komputer 1400XL/1450XL menggunakan Finite State Machine untuk
mengaktifkan World English Spelling text-to -sintesis ucapan. [72] Sayangnya, komputer pribadi
1400XL/1450XL tidak pernah dikirimkan dalam jumlah banyak.
Komputer Atari ST dijual dengan "stspeech.tos" pada floppy disk.

apel
0:15

Demo MacinTalk 1
0:09

Demo MacinTalk 2 menampilkan suara Mr. Hughes dan Marvin

Sistem ucapan pertama yang diintegrasikan ke dalam sistem operasi yang dikirimkan dalam
jumlah besar adalah MacInTalk dari Apple Computer . Perangkat lunak ini dilisensikan dari
pengembang pihak ketiga Joseph Katz dan Mark Barton (kemudian, SoftVoice, Inc.) dan
ditampilkan selama pengenalan komputer Macintosh tahun 1984. Demo Januari ini
membutuhkan memori RAM 512 kilobyte. Akibatnya, itu tidak dapat berjalan dalam 128 kilobyte
RAM yang benar-benar dikirim oleh Mac pertama. [73]Jadi, demo diselesaikan dengan prototipe
Mac 512k, meskipun mereka yang hadir tidak diberitahu tentang hal ini dan demo sintesis
menciptakan kegembiraan yang cukup besar untuk Macintosh. Pada awal 1990-an Apple
memperluas kemampuannya menawarkan dukungan text-to-speech sistem lebar. Dengan
diperkenalkannya komputer berbasis PowerPC yang lebih cepat, mereka menyertakan
pengambilan sampel suara berkualitas lebih tinggi. Apple juga memperkenalkan pengenalan
ucapan ke dalam sistemnya yang menyediakan kumpulan perintah yang lancar. Baru-baru ini,
Apple telah menambahkan suara berbasis sampel. Berawal dari rasa ingin tahu, sistem ucapan
Apple Macintosh telah berkembang menjadi program yang didukung penuh, PlainTalk , untuk
orang dengan masalah penglihatan. VoiceOver pertama kali ditampilkan pada tahun 2005 diMac
OS X Tiger (10.4). Selama 10.4 (Tiger) dan rilis pertama 10.5 ( Leopard ) hanya ada satu
pengiriman suara standar dengan Mac OS X. Dimulai dengan 10.6 ( Snow Leopard ), pengguna
dapat memilih dari daftar berbagai macam suara. Suara VoiceOver menampilkan tarikan napas
yang terdengar realistis di antara kalimat, serta kejernihan yang lebih baik dengan kecepatan
baca yang tinggi dibandingkan PlainTalk. Mac OS X juga menyertakan say , aplikasi berbasis
baris perintah yang mengubah teks menjadi ucapan yang dapat didengar. Penambahan
Standar AppleScript menyertakan kata kerja ucapkan yang memungkinkan skrip untuk
menggunakan salah satu suara yang diinstal dan untuk mengontrol nada, laju bicara, dan
modulasi teks yang diucapkan.

Amazon
Digunakan di Alexa dan sebagai Perangkat Lunak sebagai Layanan di AWS [74] (mulai 2017).

AmigaOS
0:12

Contoh sintesis ucapan dengan utilitas Say yang disertakan di Workbench 1.3
Sistem operasi kedua yang menampilkan kemampuan sintesis ucapan tingkat lanjut
adalah AmigaOS , yang diperkenalkan pada tahun 1985. Sintesis suara dilisensikan
oleh Commodore International dari SoftVoice, Inc., yang juga mengembangkan sistem text-to-
speech MacinTalk asli . Ini menampilkan sistem emulasi suara yang lengkap untuk bahasa
Inggris Amerika, dengan suara pria dan wanita dan penanda indikator "stres", dimungkinkan
melalui chipset audio Amiga . [75]Sistem sintesis dibagi menjadi pustaka penerjemah yang
mengubah teks bahasa Inggris tak terbatas menjadi serangkaian kode fonetik standar dan
perangkat narator yang menerapkan model formant pembuatan ucapan. AmigaOS juga
menampilkan " Speak Handler " tingkat tinggi, yang memungkinkan perintah -line pengguna
untuk mengarahkan keluaran teks ke ucapan. Sintesis ucapan terkadang digunakan dalam
program pihak ketiga, khususnya pengolah kata dan perangkat lunak pendidikan. Perangkat
lunak sintesis sebagian besar tetap tidak berubah sejak rilis AmigaOS pertama dan Commodore
akhirnya menghapus dukungan sintesis ucapan dari AmigaOS 2.1 dan seterusnya.
Terlepas dari batasan fonem bahasa Inggris Amerika, versi tidak resmi dengan sintesis ucapan
multibahasa dikembangkan. Ini memanfaatkan versi yang disempurnakan dari perpustakaan
penerjemah yang dapat menerjemahkan sejumlah bahasa, mengingat seperangkat aturan untuk
setiap bahasa. [76]

Microsoft Windows
Lihat juga: Agen Microsoft
Sistem desktop Windows modern dapat menggunakan komponen SAPI 4 dan SAPI 5 untuk
mendukung sintesis ucapan dan pengenalan ucapan . SAPI 4.0 tersedia sebagai add-on
opsional untuk Windows 95 dan Windows 98 . Windows 2000 menambahkan Narrator , utilitas
text-to-speech untuk orang yang memiliki gangguan penglihatan. Program pihak ketiga seperti
JAWS untuk Windows, Window-Eyes, Non-visual Desktop Access, Supernova dan System
Access dapat melakukan berbagai tugas text-to-speech seperti membaca teks dengan lantang
dari situs web tertentu, akun email, dokumen teks, Papan klip Windows, pengetikan keyboard
pengguna, dll. Tidak semua program dapat menggunakan sintesis ucapan secara
langsung.[77] Beberapa program dapat menggunakan plug-in, ekstensi, atau add-on untuk
membaca teks dengan lantang. Tersedia program pihak ketiga yang dapat membaca teks dari
clipboard sistem.
Microsoft Speech Server adalah paket berbasis server untuk sintesis dan pengenalan suara. Ini
dirancang untuk penggunaan jaringan dengan aplikasi web dan pusat panggilan .

Votrax
Artikel utama: Votrax
Dari tahun 1971 hingga 1996, Votrax memproduksi sejumlah komponen penyintesis suara
komersial. Synthesizer Votrax disertakan dalam Kurzweil Reading Machine for the Blind generasi
pertama.

Sistem teks-ke-ucapan
Text-to-speech (TTS) mengacu pada kemampuan komputer untuk membaca teks dengan
keras. Mesin TTS mengubah teks tertulis menjadi representasi fonemik, kemudian mengubah
representasi fonemik menjadi bentuk gelombang yang dapat dikeluarkan sebagai suara. Mesin
TTS dengan berbagai bahasa, dialek, dan kosakata khusus tersedia melalui penerbit pihak
ketiga. [78]

Android
Android versi 1.6 menambahkan dukungan untuk sintesis ucapan (TTS). [79]

Internet
Saat ini, ada sejumlah aplikasi , plugin , dan gadget yang dapat membaca pesan langsung
dari klien email dan halaman web dari browser web atau Google Toolbar . Beberapa perangkat
lunak khusus dapat menceritakan umpan RSS . Di satu sisi, narator RSS online
menyederhanakan pengiriman informasi dengan memungkinkan pengguna mendengarkan
sumber berita favorit mereka dan mengonversinya menjadi podcast . Di sisi lain, pembaca RSS
online tersedia di hampir semua komputer pribadi yang terhubung ke Internet. Pengguna dapat
mengunduh file audio yang dihasilkan ke perangkat portabel, misalnya dengan
bantuan podcastpenerima, dan dengarkan sambil berjalan, joging, atau dalam perjalanan ke
tempat kerja.
Bidang yang berkembang di TTS berbasis Internet adalah teknologi bantuan berbasis web ,
misalnya 'Browsealoud' dari perusahaan Inggris dan Readspeaker . Itu dapat memberikan
fungsionalitas TTS kepada siapa saja (untuk alasan aksesibilitas, kenyamanan, hiburan atau
informasi) dengan akses ke browser web. Proyek nirlaba Pediaphon dibuat pada tahun 2006
untuk menyediakan antarmuka TTS berbasis web yang mirip dengan Wikipedia. [80]
Pekerjaan lain sedang dilakukan dalam konteks W3C melalui Grup Inkubator Audio W3C dengan
keterlibatan BBC dan Google Inc.

Sumber terbuka
Beberapa sistem perangkat lunak sumber terbuka tersedia, seperti:

• eSpeak yang mendukung berbagai bahasa.


• Festival Speech Synthesis System yang menggunakan sintesis berbasis diphone,
serta teknik yang lebih modern dan terdengar lebih baik.
• gnuspeech yang menggunakan sintesis artikulasi [81] dari Free Software Foundation .
Yang lain
• Menyusul kegagalan komersial Intellivoice berbasis perangkat keras, pengembang
game hemat menggunakan sintesis perangkat lunak di game
selanjutnya [ rujukan? ] . Sistem sebelumnya dari Atari, seperti Atari 5200 (Baseball)
dan Atari 2600 ( Quadrun dan Open Sesame), juga memiliki permainan yang
memanfaatkan sintesis perangkat lunak. [ rujukan? ]
• Beberapa pembaca e-book , seperti Amazon Kindle , Samsung E6, PocketBook
eReader Pro, enTourage eDGe , dan Bebook Neo.
• BBC Micro memasukkan chip sintesis ucapan Texas Instruments TMS5220,
• Beberapa model komputer rumah Texas Instruments yang diproduksi pada tahun
1979 dan 1981 ( Texas Instruments TI-99/4 dan TI-99/4A ) mampu melakukan
sintesis teks-ke-fonem atau melafalkan kata dan frasa lengkap (teks ke kamus),
menggunakan periferal Speech Synthesizer yang sangat populer. TI menggunakan
codec berpemilik untuk menyematkan frasa lisan lengkap ke dalam aplikasi,
terutama video game. [82]
• OS /2 Warp 4 IBM menyertakan VoiceType, pendahulu IBM ViaVoice .
• Unit Navigasi GPS yang diproduksi oleh Garmin , Magellan , TomTom , dan lainnya
menggunakan sintesis ucapan untuk navigasi mobil.
• Yamaha memproduksi music synthesizer pada tahun 1999, Yamaha FS1R yang
menyertakan kemampuan sintesis Formant. Urutan hingga 512 huruf vokal dan
konsonan individu dapat disimpan dan diputar ulang, memungkinkan frasa vokal
pendek disintesis.
Mirip suara digital
Pada Conference on Neural Information Processing Systems (NeurIPS) 2018, para peneliti
dari Google mempresentasikan karya 'Transfer Pembelajaran dari Verifikasi Speaker ke Sintesis
Teks-Ke-Speech Multispeaker', yang mentransfer pembelajaran dari verifikasi speaker untuk
mencapai sintesis teks-ke-ucapan, yang dapat dibuat terdengar hampir seperti siapa pun dari
sampel ucapan hanya 5 detik. [83]
Juga peneliti dari Baidu Research mempresentasikan sistem kloning suara dengan tujuan
serupa pada konferensi NeurIPS 2018, [84] meskipun hasilnya agak tidak meyakinkan.
Pada tahun 2019, digital sound-alikes menemukan jalan mereka ke tangan para penjahat karena
peneliti Symantec mengetahui 3 kasus di mana teknologi digital sound-alikes telah digunakan
untuk kejahatan. [85] [86]
Ini meningkatkan tekanan pada situasi disinformasi ditambah dengan fakta bahwa

• Sintesis citra manusia sejak awal 2000-an telah meningkat melampaui titik
ketidakmampuan manusia untuk membedakan manusia nyata yang dicitrakan
dengan kamera nyata dari simulasi manusia yang dicitrakan dengan simulasi
kamera.
• Teknik pemalsuan video 2D diperkenalkan pada tahun 2016 yang
memungkinkan pemalsuan ekspresi wajah hampir secara real-time dalam video 2D
yang ada. [87]
• Dalam SIGGRAPH 2017, audio digital yang mirip dengan tubuh bagian atas Barack
Obama dipresentasikan oleh para peneliti dari University of Washington . Itu
didorong hanya oleh trek suara sebagai sumber data untuk animasi setelah fase
pelatihan untuk memperoleh sinkronisasi bibir dan informasi wajah yang lebih luas
dari materi pelatihan yang terdiri dari video 2D dengan audio telah selesai. [88]
Pada bulan Maret 2020, aplikasi web freeware bernama 15.ai yang menghasilkan suara
berkualitas tinggi dari bermacam-macam karakter fiksi dari berbagai sumber media
dirilis. [89] Karakter awal termasuk GLaDOS dari Portal , Twilight Sparkle dan Fluttershy dari
acara My Little Pony: Friendship Is Magic , dan Dokter Kesepuluh dari Doctor Who .

Bahasa markup sintesis ucapan


Sejumlah bahasa markup telah ditetapkan untuk rendisi teks sebagai ucapan dalam format yang
sesuai dengan XML . Yang terbaru adalah Speech Synthesis Markup Language (SSML), yang
menjadi rekomendasi W3C pada tahun 2004. Bahasa markup sintesis ucapan yang lebih lama
termasuk Java Speech Markup Language ( JSML ) dan SABLE . Meskipun masing-masing
diusulkan sebagai standar, tidak satupun dari mereka telah diadopsi secara luas.
Bahasa markup sintesis ucapan dibedakan dari bahasa markup dialog. VoiceXML , misalnya,
menyertakan tag yang terkait dengan pengenalan ucapan, manajemen dialog, dan panggilan
nada sentuh, selain markup text-to-speech.
BAB IV
KESIMPULAN

Aplikasi
Sintesis ucapan telah lama menjadi alat bantu teknologi yang vital dan penerapannya di bidang
ini signifikan dan tersebar luas. Ini memungkinkan hambatan lingkungan dihilangkan untuk
orang-orang dengan berbagai disabilitas. Aplikasi terlama adalah penggunaan pembaca
layar untuk orang tunanetra, tetapi sistem text-to-speech sekarang umum digunakan oleh
penderita disleksia dan ketidakmampuan membaca lainnya serta oleh anak-anak yang belum
bisa membaca. Mereka juga sering digunakan untuk membantu orang-orang dengan gangguan
bicara parah biasanya melalui alat bantu komunikasi output suara khusus . Pekerjaan untuk
mempersonalisasi suara sintetis agar lebih cocok dengan kepribadian seseorang atau suara
historis telah tersedia. Sebuah aplikasi terkenal, sintesis ucapan, adalah Mesin Baca Kurzweil
untuk Tunanetra yang menggabungkan perangkat lunak teks-ke-fonetik berdasarkan karya
dari Haskins Laboratories dan penyintesis kotak hitam yang dibuat oleh Votrax
Teknik sintesis ucapan juga digunakan dalam produksi hiburan seperti permainan dan
animasi. Pada tahun 2007, Animo Limited mengumumkan pengembangan paket aplikasi
perangkat lunak berdasarkan perangkat lunak sintesis ucapan FineSpeech, yang secara eksplisit
ditujukan untuk pelanggan di industri hiburan, yang mampu menghasilkan narasi dan dialog
sesuai dengan spesifikasi pengguna. Aplikasi ini mencapai kematangan pada tahun 2008,
ketika NEC Biglobe mengumumkan layanan web yang memungkinkan pengguna membuat
frasa dari suara karakter dari serial anime Jepang Code Geass: Lelouch of the Rebellion R2 .
Dalam beberapa tahun terakhir, alat bantu komunikasi text-to-speech untuk disabilitas dan
gangguan telah tersedia secara luas. Text-to-speech juga menemukan aplikasi baru; misalnya,
sintesis ucapan yang digabungkan dengan pengenalan ucapan memungkinkan interaksi dengan
perangkat seluler melalui antarmuka pemrosesan bahasa alami .
Text-to-speech juga digunakan dalam akuisisi bahasa kedua. Voki, misalnya, adalah alat
pendidikan yang dibuat oleh Oddcast yang memungkinkan pengguna membuat avatar
berbicara mereka sendiri, menggunakan aksen yang berbeda. Mereka dapat dikirim melalui
email, disematkan di situs web, atau dibagikan di media sosial. Bidang aplikasi lainnya adalah
pembuatan video AI dengan kepala bicara. Alat, seperti Elai.io memungkinkan pengguna
membuat konten video dengan avatar AI yang berbicara menggunakan teknologi text-to-
speech.
Selain itu, sintesis wicara adalah alat bantu komputasi yang berharga untuk analisis dan
penilaian gangguan wicara. Sebuah synthesizer kualitas suara , yang dikembangkan oleh Jorge
C. Lucero et al. di University of Brasília , mensimulasikan fisika fonasi dan mencakup model
getaran dan getaran frekuensi vokal, kebisingan aliran udara, dan asimetri laring. Synthesizer
telah digunakan untuk meniru timbre speaker disfonik dengan tingkat kekasaran, nafas, dan
ketegangan yang terkontrol.
Stephen Hawking adalah salah satu orang paling terkenal yang menggunakan komputer ucapan
untuk berkomunikasi.
Sintesis bernyanyi
Bagian ini adalah kutipan dari Teknologi musik (elektronik dan digital) § Sintesis bernyanyi
setelah tahun 2010-an . [ sunting ]
Pada tahun 2010-an, teknologi sintesis Singing telah memanfaatkan kemajuan terbaru dalam
kecerdasan buatan—mendengarkan secara mendalam dan pembelajaran mesin untuk lebih
mewakili nuansa suara manusia. Pustaka sampel fidelitas tinggi baru yang dikombinasikan
dengan stasiun kerja audio digital memfasilitasi pengeditan dengan detail halus, seperti
pergeseran format, penyesuaian vibrato, dan penyesuaian vokal dan konsonan. Pustaka sampel
untuk berbagai bahasa dan berbagai aksen tersedia. Dengan kemajuan saat ini dalam sintesis
Bernyanyi, artis terkadang menggunakan pustaka sampel sebagai pengganti penyanyi latar.

Anda mungkin juga menyukai