MACHINE LEARNING
Oleh
Dwianditya Hanif Raharjanto
NIM : 13519046
MACHINE LEARNING
Oleh
Dwianditya Hanif Raharjanto
NIM : 13519046
Program Studi Teknik Informatika
Sekolah Teknik Elektro dan Informatika
Institut Teknologi Bandung
Dr. Ir. Gusti Ayu Putri Saptawati S., M.Comm. Ir. Ricardo Irwan Rei, M.Sc., M.B.A.
NIP. 196509241995012001 NIP. -
LEMBAR IDENTITAS
Dr. Ir. Gusti Ayu Putri Saptawati S., M.Comm. Ir. Ricardo Irwan Rei, M.Sc., M.B.A.
NIP. 196509241995012001 NIP.
LEMBAR PERNYATAAN
Jika terbukti melanggar hal-hal di atas, saya bersedia dikenakan sanksi sesuai
dengan Peraturan Akademik dan Kemahasiswaan Institut Teknologi Bandung
bagian Penegakan Norma Akademik dan Kemahasiswaan khususnya Pasal 2.1
dan Pasal 2.2.
5
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas rahmat
dan karunia-Nya, tugas akhir yang berjudul “Pengembangan Model Alih Suara
Menjadi Teks Interview Summarization System Berbasis Machine Learning” dapat
penulis selesaikan sebagai syarat kelulusan tingkat sarjana. Selama pelaksanaan
tugas akhir ini, penulis banyak mendapatkan bantuan dan dukungan dari berbagai
pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih kepada:
1. Ibu Dr. Ir. Gusti Ayu Putri Saptawati Soekidjo, M.Comm. dan Bapak
Ricardo Irwan Rei selaku dosen pembimbing atas bimbingan, masukan,
ilmu, dan nasehatnya dalam pengerjaan tugas akhir ini.
2. Bapak Dr. Judhi Santoso M.Sc., selaku dosen wali yang senantiasa
membimbing dan memfasilitasi penulis dalam menempuh perjalanan
perkuliahan baik dalam bidang akademik maupun non akademik
3. Bapak Adi Mulyanto, S.T.,M.T., Bapak Dicky Prima Satya, S.T., M.T., Ibu
Latifa Dwiyanti, S.T., M.T., dan Ibu Robithoh Annur, S.T., M.Eng., Ph.D.
selaku dosen koordinator tugas akhir yang senantiasa memberikan arahan
dan memfasilitasi keberlangsungan rangkaian proses tugas akhir.
4. Seluruh Bapak dan Ibu dosen pengajar Teknik Informatika Institut
Teknologi Bandung yang sudah membimbing penulis dalam hal keilmuan
selama kuliah yang menjadi bekal untuk penulisan tugas akhir ini.
5. Orang tua dan keluarga penulis yang telah memberi dukungan material
serta motivasi dan doa untuk penulis dalam menyelesaikan program studi
sarjana pada kampus ITB.
6. Arsa Daris Gintara dan Nizamixavier Rafif Lutvie selaku teman
sekelompok penulis dalam tugas akhir ini
7. Zarfa Naida Pratista yang telah memberikan dorongan, dukungan, dan
bantuan untuk penulis dalam mengerjakan tugas akhir
6
8. Faiq yang telah menjadi teman diskusi penulis dalam pengerjaan tugas
akhir ini
9. Fadel, Kiki, Fabian, Agung, Anas, Tito, Fawwaz, dan Cindy yang telah
memberikan dukungan mental dan menemani penulis selama pengerjaan
tugas akhir
10. Teman-teman Teknik Informatika 2019 yang telah ada bersama penulis
selama menjalani perkuliahan di ITB
11. Pihak-pihak lain yang tidak dapat disebutkan satu persatu yang telah ikut
membantu dan memberikan dukungan kepada penulis selama pengerjaan
tugas akhir
7
DAFTAR ISI
ABSTRAK.............................................................................................................. 5
KATA PENGANTAR.............................................................................................6
BAB I PENDAHULUAN.....................................................................................14
I.1 Latar Belakang............................................................................................ 14
I.2 Rumusan Masalah.......................................................................................16
I.3 Tujuan......................................................................................................... 16
I.4 Batasan Masalah......................................................................................... 17
I.5 Metodologi..................................................................................................17
I.6 Sistematika Pembahasan.............................................................................19
BAB II STUDI LITERATUR..............................................................................21
II.1 Rekrutmen................................................................................................. 21
II.2 Wawancara Pekerjaan................................................................................23
II.3 Pengenalan Ucapan................................................................................... 24
II.3.1 Pengenalan Ucapan Sederhana.........................................................25
II.3.2 Arsitektur Pengenalan Ucapan Berbasis Transformers.................... 26
II.4 Teknik Pembuatan Model..........................................................................29
II.4.1 Pembuatan Model secara Pre-trained............................................... 29
II.4.2 Pembuatan Model secara Fine Tuning............................................. 30
II.5 Model Alih Suara Menjadi Teks................................................................31
II.5.1 Model Wav2Vec2 dari FAIR............................................................ 31
II.5.2 Model Whisper dari OpenAI............................................................ 31
II.6 Platform Huggingface............................................................................... 33
II.7 Metrik Pengujian Word Error Rate............................................................34
8
II.8 Penelitian Terkait.......................................................................................35
BAB III ANALISIS MASALAH DAN RANCANGAN SOLUSI
MODEL ALIH SUARA MENJADI TEKS INTERVIEW
SUMMARIZATION SYSTEM...........................................................................37
III.1 Analisis Masalah...................................................................................... 37
III.1.1 Business Understanding.................................................................. 37
III.1.2 Data Understanding.........................................................................38
III.2 Analisis Solusi..........................................................................................44
III.2.1 Penentuan Arsitektur dan Model.....................................................44
III.2.2 Data Preparation..............................................................................45
III.2.3 Modeling......................................................................................... 47
III.2.4 Evaluation....................................................................................... 48
III.2.5 Deployment..................................................................................... 48
III.3 Deskripsi Umum Solusi........................................................................... 49
BAB IV EKSPERIMEN DAN EVALUASI HASIL.......................................... 50
IV.1 Lingkungan Implementasi........................................................................ 50
IV.2 Eksperimen............................................................................................... 51
IV.2.1 Tujuan Eksperimen..........................................................................51
IV.2.2 Skenario Eksperimen.......................................................................52
IV.2.2.1 Skenario Eksperimen Wav2Vec2-XLSR-53.............................52
IV.2.2.2 Skenario Eksperimen Whisper-small dan Whisper-large.........57
IV.2.2.3 Skenario Pengujian Tiap Eksperimen...................................... 60
IV.2.3 Hasil dan Evaluasi........................................................................... 61
IV.2.3.1 Hasil Pengujian..........................................................................61
IV.2.3.2 Evaluasi Hasil Pengujian...........................................................63
IV.2.4 Kesimpulan Eksperimen..................................................................64
9
BAB V KESIMPULAN DAN SARAN............................................................... 65
V.1 Kesimpulan................................................................................................ 65
V.2 Saran.......................................................................................................... 66
DAFTAR PUSTAKA............................................................................................67
10
DAFTAR LAMPIRAN
11
DAFTAR GAMBAR
12
Gambar IV.11 Penghapus Kolom Skenario 2.........................................................59
Gambar IV.12 Resampler Audio............................................................................ 59
Gambar IV.13 Audio Setelah Resampling............................................................. 60
Gambar IV.14 Impor WhisperProcessor................................................................ 60
Gambar IV.15 Load Model Whisper...................................................................... 60
Gambar IV.16 Kode Training Whisper.................................................................. 61
Gambar IV.17 Alur Pengujian dengan Data Uji dar Common Voice.....................62
Gambar IV.18 Alur Pengujian dengan Data Uji dari Pemilik Masalah................. 62
13
DAFTAR TABEL
14
BAB I
PENDAHULUAN
Bab Pendahuluan secara umum yang dijadikan landasan kerja dan arah kerja
penulis tugas akhir, berfungsi mengantar pembaca untuk membaca laporan tugas
akhir secara keseluruhan.
Sumber Daya Manusia (SDM) merupakan hal yang penting untuk kesuksesan
suatu perusahaan. Karena melalui SDM inilah suatu perusahaan dapat mencapai
visi dan misi serta melaksanakan strategi yang dibuat oleh perusahaan tersebut.
SDM sendiri bisa diartikan sebagai suatu jasa atau usaha kerja yang dilakukan
oleh seseorang untuk menghasilkan suatu barang dan jasa (Sumarsono, 2003).
Melalui pentingya peran SDM untuk keberlangsungan perusahaan, maka
diperlukan suatu regenerasi SDM. Regenerasi SDM sendiri memiliki arti untuk
memperbaharui SDM yang ada dengan tujuan untuk memastikan keberlanjutan
dan kesuksesan jangka panjang perusahaan tersebut.
15
penerimaan kandidat. Proses yang dilakukan bertujuan untuk memenuhi harapan
perusahaan yaitu menemukan karyawan yang cocok untuk bidang yang
diinginkan oleh perusahaan (Kumar, 2014).
Namun, dalam keadaan nyatanya proses rekrutmen yang sudah dijelaskan di atas
masih memiliki masalah mengenai pencapaian harapan perusahaan yaitu
menemukan SDM yang “tepat” dari banyaknya kandidat yang mendaftar. Pada
kasus nyatanya suatu perusahaan perlu mengerahkan sumber daya lain yang besar
untuk memenuhi proses rekrutmen tersebut mulai dari sumber daya manusia
untuk mengevaluasi kandidat yang ada, biaya untuk membayar sumber daya
manusia dan sumber daya lain yang mendukung proses evaluasi, dan waktu
panjang karena banyaknya kandidat yang mendaftar. Bahkan dengan berbagai
usaha yang dilakukan oleh perusahaan tersebut tetap menemui masalah mengenai
kesesuaian kandidat dengan keinginan perusahaan, padahal keadaan yang
diinginkan perusahaan adalah mendapatkan kandidat yang tepat dan cepat serta
meminimalisir biaya yang ada.
Terdapat solusi yang hadir untuk menjadi alternatif dalam meringankan masalah
yang ada, yaitu mengkolaborasikan manusia dengan mesin. Pada beberapa tahap
proses rekrutmen, terdapat tahap-tahap yang dapat dibantu oleh mesin untuk
mempermudah proses evaluasi. Mesin disini tidak semata-mata menggantikan
peran manusia yang ada, tetapi membantu manusia dalam menyelesaikan
tugasnya. Tahap-tahap yang dapat dibantu oleh mesin adalah tahapan pemilihan
CV kandidat dan wawancara. Pada tugas akhir kali ini akan lebih berfokus pada
pemanfaatan mesin di tahap wawancara yang nantinya akan diberikan hasil
ringkasan suatu wawancara kandidat dengan cara melakukan transkripsi
wawancara terlebih dahulu.
Untuk lebih spesifik mengenai hal yang dibahas pada bagian ini, pembahasan
yang difokuskan pada tugas akhir kali ini adalah mengenai pengubahan suara
menjadi teks untuk proses transkripsi wawancara. Hal ini diperlukan karena
16
proses ini merupakan awal dari rangkaian proses yang dilakukan oleh mesin untuk
membantu tahap wawancara yang ada.
1. Model alih suara menjadi teks mana yang baik antara Wav2Vec2 dari
FAIR dan Whisper dari OpenAI yang dapat membantu proses transkripsi
wawancara berbahasa Indonesia berbasis pembelajaran mesin?
2. Apakah kinerja model alih suara menjadi teks yang dipilih pada nomor 1
dapat memenuhi kebutuhan pengguna pada bidang ini?
I.3 Tujuan
Berdasarkan rumusan masalah yang sudah dirumuskan, lahir tujuan yang ingin
dicapai pada tugas akhir ini adalah sebagai berikut:
1. Dapat menentukan model yang digunakan untuk alih suara menjadi teks di
antara Wav2Vec2 dari FAIR dan Whisper dari OpenAI untuk digunakan
dalam proses transkripsi wawancara berbasis pembelajaran mesin.
2. Dapat mengevaluasi kinerja model alih suara menjadi teks yang dipilih
pada proses transkripsi wawancara berbasis pembelajaran mesin.
17
I.4 Batasan Masalah
I.5 Metodologi
Dalam pengerjaan tugas akhir ini, akan menggunakan metodologi Cross Industry
Standard Process for Data Mining (CRISP-DM). Metodologi ini banyak
digunakan dalam dunia data science untuk memahami permasalahan dan
menciptakan solusi yang sesuai. Meskipun awalnya dirancang untuk data mining,
CRISP-DM juga relevan dalam pengembangan model pembelajaran mesin,
termasuk deep learning (Ahmadi, 2020).
CRISP-DM terdiri atas enam tahapan utama, yaitu business understanding, data
understanding, data preparation, modeling, evaluation, dan deployment.
Tahapan-tahapan yang ada membantu memahami konteks bisnis, menggali
pemahaman tentang data yang digunakan, mempersiapkan data, membangun
model, mengevaluasi kinerja model, dan mengimplementasikan model ke dalam
produksi.
18
Gambar I.1 Tahapan Utama Metodologi CRISP-DM (Ahmadi, 2020)
1. Business Understanding
Pada tahap ini, hal yang difokuskan adalah dalam memahami tujuan dan
hasil yang harus dicapai dari proyek yang ada. Kegiatan utama termasuk
penentuan tujuan proyek, menganalisis situasi masalah yang ada,
menentukan tujuan dari model pembelajaran mesin, dan merancang
rencana proyek.
2. Data Understanding
19
3. Data Preparation
4. Modeling
Fokus dalam tahap ini adalah pembuatan model berdasarkan teknik yang
sudah ditentukan. Kegiatan utama termasuk pemilihan teknik pemodelan
yang sesuai, penentuan rancangan uji coba, membuat model, serta
melakukan analisis dan evaluasi terhadap model yang telah dibangun.
5. Evaluation
6. Deployment
Sistematika pembahasan Tugas Akhir akan dibahas pada bagian ini. Tugas Akhir
disusun dalam lima bab yang terdiri atas Bab I Pendahuluan, Bab II Studi
Literatur, Bab III Analisis Masalah dan Rancangan Solusi, Bab IV Eksperimen,
20
dan Bab V Kesimpulan dan Saran. Adapun isi dari masing-masing bab sebagai
berikut:
1. Bab I Pendahuluan
Bab I membahas pendahuluan dari Tugas Akhir ini. Bab I meliputi latar
belakang, rumusan masalah, tujuan, batasan masalah, metodologi, dan
sistematika pembahasan.
2. Bab II Studi Literatur
Bab II membahas studi pada literatur yang berkaitan dengan Tugas Akhir
ini.
3. Bab III Analisis Masalah dan Rancangan Solusi
Bab III membahas deskripsi solusi terhadap permasalahan yang dibawa
oleh Tugas Akhir ini. Bab ini menjelaskan tentang analisis masalah,
analisis solusi, dan deskripsi umum solusi yang menjawab permasalahan
Tugas Akhir.
4. Bab IV Eksperimen
Bab IV berisi rincian implementasi dan pengujian solusi yang telah dipilih.
Bab ini terdiri dari pembangunan model, implementasi sistem, dan
pengujian solusi.
5. Bab V Kesimpulan dan Saran
Bab V berisi kesimpulan dan saran dari pengerjaan Tugas Akhir secara
keseluruhan.
21
BAB II
STUDI LITERATUR
Pada bab ini akan dijelaskan hasil studi literatur yang berkaitan dengan
pembuatan model alih suara menjadi teks pada sistem interview summarization
untuk job recruitment yang bertujuan untuk memenuhi gap pengetahuan ketika
membaca tugas akhir ini. Pembahasan akan dibagi menjadi Rekrutmen,
Wawancara Pekerjaan, Pengenalan Ucapan, Teknik Pembuatan Model, Model
Wav2Vec2 dari FAIR, Model Whisper dari OpenAI, Platform HuggingFace,
Metrik Pengujian Word Error Rate, Penelitian Terkait.
II.1 Rekrutmen
Proses rekrutmen adalah proses organisasi atau pemberi kerja untuk mendapatkan
pekerja baru yang sesuai dengan profil dan kebutuhan suatu organisasi. Proses ini
termasuk mengidentifikasi kebutuhan perekrutan, menyiapkan deskripsi pekerjaan
yang tersedia, mencari kandidat, menyaring kandidat, mewawancara kandidat (job
interview), memilih kandidat, memberikan tawaran kerja, dan memberikan
orientasi kerja.
22
Tahap berikutnya setelah proses rekrutmen adalah proses seleksi, yang melibatkan
pemilihan kandidat yang memiliki kompetensi yang relevan dengan pekerjaan
(Kumari, 2012). Menurut Kumari, proses seleksi tidak hanya sekadar memilih
kandidat terbaik, tetapi juga mencari kesesuaian antara apa yang kandidat
tawarkan dengan kebutuhan organisasi. Waldt (2014) melakukan studi yang
menjelaskan tahap-tahap proses rekrutmen dan seleksi secara komprehensif, dan
dapat dilihat dalam Gambar II.13.
23
demikian, semua informasi yang disampaikan dalam formulir lamaran
perlu dikonfirmasi lebih lanjut sebelum dipercaya sepenuhnya.
3. Tahap Referensi: Tahap ini bertujuan untuk mendapatkan informasi
tentang sikap dan perilaku kandidat, serta memverifikasi informasi yang
tercantum dalam formulir lamaran. Tahap referensi dapat dilakukan
sebelum atau setelah tahap wawancara.
4. Tes Psikologi: Tes psikologi digunakan untuk memberikan gambaran
mengenai karakteristik kandidat sehingga perusahaan dapat menempatkan
mereka di posisi yang sesuai. Perusahaan besar biasanya menggunakan tes
psikologi yang lebih rinci dan akurat, sedangkan perusahaan kecil
cenderung mengandalkan wawancara untuk mendapatkan informasi
karakteristik kandidat.
5. Tahap Wawancara: Wawancara merupakan proses evaluasi kandidat oleh
pewawancara di dalam lingkungan yang telah disiapkan. Tujuannya adalah
untuk mendapatkan informasi yang tidak diperoleh dari tahap lainnya,
seperti sikap kepemimpinan dan motivasi internal. Wawancara umumnya
bersifat subjektif dan sangat bergantung pada pewawancara.
6. Persetujuan oleh Supervisor: Tahap ini merupakan tahap terakhir setelah
kandidat berhasil melewati semua tahap sebelumnya. Pada tahap ini, dapat
dilakukan wawancara tambahan untuk menilai kesesuaian kandidat dengan
pegawai lain. Penilaian ini juga dapat dibantu oleh pegawai yang telah
berpengalaman langsung dengan kondisi kerja di perusahaan.
24
mempekerjakan kandidat yang tepat dan kandidat memiliki tujuan untuk
mendapatkan pekerjaan yang tepat.
Proses job interview sering dilihat hanya dari satu perspektif saja yaitu dari
perspektif representasi pemberi kerja. Sedangkan proses job interview merupakan
komunikasi dua arah sehingga memiliki sifat dyadic, perlu untuk memperhatikan
perspektif dari kedua sisi. Representasi pemberi kerja dalam job interview
bermaksud untuk menggali informasi dari kandidat untuk memutuskan apakah
kandidat cocok untuk pekerjaan, unit, organisasi, dan aspek lain. Sedangkan
kandidat dalam job interview bermaksud untuk memberikan kesan yang baik
kepada representasi pemberi kerja dengan berbagi tentang pengetahuan, keahlian,
dan kelebihannya sambil menggali informasi tentang pekerjaan yang dilamar
untuk mendapatkan kesan tentang pekerjaan dan organisasi yang dilamar.
Kesuksesan dari sebuah job interview ini dapat ditentukan dari pendekatan yang
dilakukan antar sisi untuk mencapai tujuannya masing-masing dan bagaimana
menyelesaikan perbedaan tujuan tersebut (Schmitt, 2012, 323-352).
Proses job interview merupakan proses yang penting dalam job recruitment.
Proses ini jika dilakukan secara efektif dapat memastikan apakah kualitas,
kompetensi, dan keahlian kandidat sesuai dengan ekspektasi dari pemberi kerja
(Merin, 2022).
Berdasarkan Keshet & Bengio (2009) Pengenalan Ucapan atau lebih dikenal
sebagai Automatic Speech Recognition (ASR) adalah proses komputasi untuk
mengubah suara ke dalam bentuk teks. Terdapat beberapa mekanisme dasar dari
ASR, yaitu arsitektur ASR berbasis DNN, dan arsitektur ASR saat menggunakan
HTK.
25
II.3.1 Pengenalan Ucapan Sederhana
Arsitektur dari sebuah sistem Pengenalan Ucapan Sederhana terdiri atas empat
komponen sebagai berikut:
Gambar II.2 Arsitektur Umum Automatic Speech Recognition (Keshet & Bengio,
2009)
26
ekstraksi fitur berupa vektor untuk diberikan hasilnya kepada model
akustik.
4. Hipotesa Keluaran
Arsitektur Transformers adalah sebuah model jaringan saraf yang telah menjadi
landasan dalam pengolahan bahasa alami (Natural Language Processing/NLP).
Transformers dikembangkan oleh Vaswani et al. pada tahun 2017 dan telah
membawa terobosan dalam pemahaman dan generasi teks. Arsitektur
Transformers didasarkan pada mekanisme perhatian (attention mechanism), yang
memungkinkan model untuk memperhatikan konteks global dalam urutan input.
Model ini cocok untuk tugas yang melibatkan pemrosesan teks berurutan, seperti
27
pemahaman bahasa, terjemahan mesin, dan banyak lagi. Arsitektur Transformers
terdiri dari dua komponen utama: encoder dan decoder.
Salah satu ASR berbasis Transformer adalah Speech-Transformer oleh Dong et al.
(2018). Speech-Transformer menggunakan arsitektur encoder-decoder. Penjelasan
lebih detail mengenai Speech-Transformer berdasarkan Gambar II.2 adalah
sebagai berikut.
1. Encoder
2. Decoder
28
juga menggunakan karakter sebelumnya sebagai informasi tambahan
ketika menghasilkan suatu karakter.
29
II.4 Teknik Pembuatan Model
30
II.4.2 Pembuatan Model secara Fine Tuning
Untuk mengatasi tantangan yang dihadapi oleh bahasa dengan sumber daya
rendah, sistem ASR dapat menggunakan teknik transfer learning. Transfer
learning merupakan pendekatan pembelajaran yang melibatkan penggunaan
kembali bobot model yang telah dilatih pada suatu tugas tertentu untuk melatih
model pada tugas lain (Russell & Norvig, 2021). Model akustik di-pre-trained
melalui pembelajaran terawasi menggunakan data berlabel, umumnya berasal dari
bahasa dengan sumber daya tinggi. Kemudian, bobot yang telah di-pre-trained ini
digunakan untuk mengenali bahasa dengan sumber daya rendah yang memiliki
jumlah data pelatihan yang terbatas (Russell & Norvig, 2021), dengan
memanfaatkan pengetahuan yang diperoleh dari proses pelatihan model tersebut.
31
II.5 Model Alih Suara Menjadi Teks
32
bahwa penggunaan dataset yang besar dan beragam seperti ini menghasilkan
peningkatan ketahanan terhadap aksen, kebisingan latar belakang, dan bahasa
teknis. Selain itu, ini memungkinkan transkripsi dalam berbagai bahasa, serta
terjemahan dari bahasa-bahasa tersebut ke dalam bahasa Inggris. Kami telah
membuka sumber kode model dan proses sebagai dasar untuk membangun
aplikasi yang berguna dan untuk penelitian lebih lanjut dalam pemrosesan ucapan
yang tangguh.
Sebuah decoder dilatih untuk memprediksi teks caption yang sesuai, yang
dicampur dengan token-token khusus yang mengarahkan model tunggal
untuk melakukan tugas-tugas seperti identifikasi bahasa, penanda waktu
pada tingkat frasa, transkripsi ucapan multibahasa, dan terjemahan ucapan
ke bahasa Inggris.
Sekitar sepertiga dari dataset audio Whisper adalah non-Bahasa Inggris, dan
model ini secara bergantian diberikan tugas untuk mentranskripsi dalam bahasa
asli atau menerjemahkan ke dalam bahasa Inggris. Kami menemukan bahwa
pendekatan ini sangat efektif dalam mempelajari terjemahan ucapan ke teks, dan
kinerjanya melebihi State-of-the-Art (SOTA) terpantau pada terjemahan CoVoST2
ke bahasa Inggris tanpa latihan.
Hugging Face adalah sebuah perusahaan dan komunitas yang terkenal dalam
bidang pemrosesan bahasa alami (Natural Language Processing/NLP) dan
pengembangan model bahasa. Mereka dikenal karena kontribusinya dalam
pengembangan perpustakaan (library) pemrosesan bahasa terbuka (open-source)
yang populer, yaitu Transformers.
34
Selain menyediakan perpustakaan Transformers, Hugging Face juga menyediakan
platform bernama "Hugging Face Hub". Platform ini memungkinkan pengguna
untuk berbagi, menemukan, dan mengunduh model bahasa yang telah dilatih
sebelumnya oleh komunitas. Dengan demikian, pengguna dapat dengan mudah
mengakses dan menggunakan model bahasa terkini untuk tugas NLP mereka
tanpa perlu melatih dari awal.
Hugging Face juga mengembangkan alat (tools) dan sumber daya (resources)
lainnya untuk mempermudah pengembangan dan eksplorasi dalam bidang NLP.
Mereka aktif dalam berkontribusi pada komunitas pemrosesan bahasa dan sering
kali mengadakan kompetisi dan tantangan terkait pemrosesan bahasa.
Word Error Rate (WER) adalah metrik evaluasi yang umum digunakan dalam
bidang pemrosesan bahasa alami (Natural Language Processing, NLP) untuk
mengukur tingkat kesalahan dalam pemrosesan teks. WER mengukur perbedaan
antara teks target yang benar dan teks yang dihasilkan oleh sistem atau model
NLP.
Word Error Rate (WER) merupakan metrik evaluasi ASR yang paling sering
digunakan, yang juga akan digunakan dalam Tugas Akhir ini. WER menghitung
persentase jumlah kata yang salah terhadap seluruh jumlah kata yang diproses,
yang didefinisikan (Errattahi dkk., 2018) sebagai berikut:
(1)
Semakin rendah nilai WER, semakin baik sistem atau model NLP dalam
menghasilkan teks yang sesuai dengan teks target. WER digunakan secara luas
dalam evaluasi sistem pengenalan suara, sistem transkripsi teks, sistem
penerjemahan mesin, dan aplikasi NLP lainnya.
Model memiliki hasil WER dengan data uji common voice sebesar 26%.
36
Dalam penelitian ini, model pre-trained dari OpenAI yaitu Whisper
Large-V2 di-fine-tuning dengan penggunaan dataset Common Voice 13
berbahasa Indonesia yang terdiri atas audio berdurasi kurang lebih 15 jam.
Pelatihan dilakukan sebanyak 5 kali epochs dan hasil pengujian dengan
menggunakan data uji Common Voice 13 adalah sebesar 6.6% WER.
Tabel II.1 Studi Literatur Pelatihan Model ASR pada Dataset Mozilla Common
Voice
37
BAB III
SUMMARIZATION SYSTEM
Bagian analisis masalah pada tugas akhir kali ini akan menggunakan dua buah
poin pertama pada metodologi yang sudah ditentukan yaitu CRISP-DM, yaitu
business understanding dan data understanding.
Berdasarkan masalah yang ada pada proses pembuatan transkrip wawancara ini,
diperlukan solusi yang paling optimal yang nantinya dapat membantu
meringankan dari segi resource sehingga hasil interview yang didapatkan
membutuhkan waktu yang cepat dan hasilnya tetap tepat sasaran.
Data Common Voice disini diambil dari Hugging Face. Alasan pemilihan data
Common Voice disini karena data tersebut merupakan data yang sering digunakan
untuk melakukan pelatihan model ASR secara fine-tuning untuk bahasa lain selain
bahasa Inggris (Hugging Face, 2022). Sumber dari data audio Common Voice ini
berasal dari crowdsourcing yang dilakukan oleh Mozilla sejak Januari 2020
39
sampai Maret 2023. Bahasa Indonesia merupakan salah satu bahasa yang tersedia
pada data Common Voice. Durasi data bahasa Indonesia yang ada pada Common
Voice adalah 15 jam secara total dan berformat .mp3 serta memiliki frekuensi 48
kHz. Data Common Voice terdiri atas tiga bagian, yaitu latih, uji, dan validasi.
Dimensi yang dimiliki oleh data Common Voice adalah 11982 baris x 13 kolom
dan berikut adalah contoh data.
{'client_id':
'0a4e7e60acc2a6145fc2589e6abb81e41e430cea0611bd0c919eb1baf328f2545dd908f7a787a
2cf3ff64b4412b7527b4a2dcde5c2d161941246c1c106df91c9',
'path':
'/root/.cache/huggingface/datasets/downloads/extracted/6bb944c690940a5cc6c8e82
c29615d79b6a593736a533875ae720df84349f3f6/id_test_0/common_voice_id_23033570.m
p3',
'audio': {'path':
'/root/.cache/huggingface/datasets/downloads/extracted/6bb944c690940a5cc6c8e82
c29615d79b6a593736a533875ae720df84349f3f6/id_test_0/common_voice_id_23033570.m
p3',
'array': array([ 0.00000000e+00, -1.62967187e-13, -4.52061619e-14, ...,
-4.09781933e-05, -2.77457730e-05, -3.40642328e-06]),
'sampling_rate': 48000},
'sentence': 'Maha Suci Allah.',
'up_votes': 2,
'down_votes': 0,
'age': 'teens',
'gender': 'male',
'accent': '',
'locale': 'id',
'segment': '',
'variant': ''}
Penjelasan mengenai atribut dari data Common Voice adalah sebagai berikut
(Mozilla, 2023)
40
7. accent: aksen klien
8. locale: bahasa ibu klien
9. segment: tidak ada penjelasan dan biasanya kosong
10. variant: tidak ada penjelasan
11. path: lokasi file audio
12. audio: rekaman yang di-decode dalam bentuk array 1 dimensi
13. sampling_rate: frekuensi sampling dari audio dalam Hertz
Fitur-fitur yang diperlukan ada pada data ini adalah client_id, path, audio,
sentences, dan locale. Lainnya adalah opsional (Mozilla, 2023) tetapi, yang
diperlukan pada proses modeling nantinya hanya sebatas path, audio, dan
sentences.
Durasi per-data nya tidak dicantumkan sehingga informasi yang bisa didapatkan
adalah total durasi data keseluruhan dengan cara perhitungan manual yaitu
41
menggunakan formula panjang array dari audio dibagi dengan frekuensi sampling.
Berikut adalah potongan kode dari penghitungan total durasi.
for i in range(len(df_indonesian)):
df_indonesian['length'][i] = len(df_indonesian['array'][i])/48000
Berdasarkan Gambar III.4 didapatkan hasil bahwa audio pada dataset Common
Voice berdurasi pendek. Kemudian durasi paling banyak pada dataset Common
Voice sendiri ada pada range 2.5 detik sampai 5 detik.
42
Setelah melakukan visualisasi pengecekan komponen durasi akan diberikan
visualisasi mengenai komponen transkrip kata per audio. Berikut adalah
visualisasi mengenai banyak kata.
Berdasarkan Gambar III.5 didapatkan hasil bahwa jumlah transkrip kata pada tiap
audio dataset Common Voice berjumlah sedikit karena durasi dari audio yang
berdurasi pendek. Kemudian jumlah transkrip kata pada tiap audio dataset
Common Voice paling banyak berada pada range 5 sampai 10 kata.
Setelah diberikan visualisasi mengenai transkrip kata per audio, kemudian akan
diberikan visualisasi mengenai berapa banyak karakter yang muncul pada setiap
audio. Kegiatan ini bertujuan untuk melakukan pengecekan lebih lanjut kualitas
dari data Common Voice yang ada. Berikut adalah visualisasi mengenai banyak
karakter.
43
Gambar III.6 Histogram dan Boxplot untuk Karakter
Berdasarkan Gambar III.6 karakter yang muncul pada setiap audio tidak banyak
karena sesuai dengan total durasi yang pendek dari setiap audio. Jumlah karakter
audio dataset Common Voice paling banyak terdapat pada range 30 sampai 60
karakter.
Atribut Keterangan
44
Sesuai dengan isi dari tabel yang sudah tertera, dataset yang diberikan oleh
pemilik masalah memang langsung mengarah pada bidang spesifik yaitu
wawancara pekerjaan, tetapi kondisi audio yang relatif banyak noise
menyebabkan data ini nantinya akan dimanfaatkan sebagai data uji saja dengan
penambahan transkrip audio yang ada secara manual.
45
Pemilihan arsitektur Transformer sendiri karena ASR dengan menggunakan
arsitektur Transformer sendiri dinilai efektif dalam menangani kasus ASR ini.
Transformer sendiri adalah arsitektur jaringan saraf yang dikembangkan oleh
Vaswani et al. (2017) yang telah menjadi landasan untuk banyak aplikasi NLP,
yang terbaru ini bahkan sudah termasuk aplikasi ASR. Keunggulan dari arsitektur
Transformer sendiri memperhatikan mengenai konteks global dalam urutan kata
yang diberikan dan mengatasi masalah jarak panjang dalam urutan kata. Oleh
karena itu, model nantinya memungkinkan untuk mengenali pola dan dependensi
yang kompleks dalam ucapan dan menghasilkan hasil yang lebih akurat. Hal ini
sesuai dengan tujuan yang diinginkan pada pengerjaan tugas akhir kali ini untuk
mendapatkan hasil transkrip wawancara yang tepat.
Kemudian untuk menentukan model mana yang lebih baik untuk digunakan akan
dilakukan beberapa tahap implementasi yaitu, akuisisi data dan pra-pemrosesan
data, pembangunan dan pelatihan model, pengujian dengan WER, dan
deployment. Model nantinya akan dibandingkan pada proses pengujian
berdasarkan WER yang masing-masing model dapatkan karena untuk mengukur
performansi dari suatu model pada tugas akhir kali ini digunakan metrik WER.
Setelah mendapatkan model yang terpilih berdasarkan perbandingan WER yang
sudah dilakukan, akan dilakukan deployment untuk model tersebut dan dibuatkan
API terkait untuk kepentingan penggunaan model yang sudah dibangun agar
terintegrasi dengan komponen lainnya.
46
dataset dari pemilik masalah. Tahapan yang dilakukan pada data Common Voice
adalah sebagai berikut.
Hal ini dilakukan agar data latih yang semakin banyak. Sisa data uji tentu
untuk melakukan evaluasi model yang di fine-tune dengan data latih ini.
Fitur atau kolom yang dibutuhkan hanyalah fitur audio dan transkrip dari
audio tersebut. Kolom path dibutuhkan untuk pengaksesan data tersebut.
Tahapan yang dilakukan pada data pemilik masalah adalah sebagai berikut.
Bertujuan untuk memperkecil ukuran dari suatu file yang akan diuji
sehingga mempercepat dalam proses uploading nantinya.
Data yang nantinya akan diterima pada kasus nyatanya akan berdurasi
sekitar 3 menit dan paling lama berdurasi 7 menit. Jadi durasi data yang
ada akan dilakukan pemotongan menjadi data berdurasi 5 menit, 6 menit,
dan 7 menit. Masing-masing data dengan durasi yang telah ditentukan
berjumlah 10 data sehingga total data yang didapatkan adalah 30 data.
47
III.2.3 Modeling
Setelah proses pemrosesan data dan sudah mendapatkan data yang siap dipakai,
langkah berikutnya adalah melakukan pelatihan model dengan data yang
disiapkan. Dalam pengerjaan tugas akhir kali ini akan dilatih model yang sudah
ditentukan dengan menggunakan metode fine-tuning dengan data yang sudah
disiapkan, tetapi data yang digunakan untuk data latih adalah data gabungan dari
data latih dan data validasi Common Voice. Langkah-langkah yang ada pada tahap
modeling adalah sebagai berikut.
48
3. Mempersiapkan hyperparameter dan memulai pelatihan
III.2.4 Evaluation
Evaluasi pada pengerjaan tugas akhir kali ini akan dilakukan evaluasi umum
model-model yang ada yang nantinya akan dieliminasi untuk dilakukan evaluasi
yang mengerucut pada bidang spesifik yang sudah ditentukan. Penentuan suatu
model bagus atau tidak didasari oleh ketepatan yang ditentukan oleh WER dan
kecepatan yang ditentukan dari proses model melakukan transkripsi.
III.2.5 Deployment
Proses terakhir ini diperlukan untuk pengaplikasian model. Karena tujuan awal
dari keseluruhan proyek adalah membuat aplikasi berbasis web dan model ini
merupakan salah satu alat dari aplikasi tersebut maka diperlukan deployment agar
model ini dapat terintegrasi dan berkomunikasi dengan komponen aplikasi web
yang sudah dirancang. Komunikasi model dengan aplikasi web menggunakan
API.
49
III.3 Deskripsi Umum Solusi
Berdasarkan analisis solusi yang dilakukan, pendekatan yang dipilih untuk
persoalan transkrip wawancara adalah pendekatan dengan pengembangan
menggunakan basis Transformer serta pencarian dataset melalui sumber-sumber
open source. Alasan dari pemilihan pendekatan tersebut karena Transformer itu
open source, efisien untuk diimplementasikan, dan mudah diintegrasi pada NLP
task. Untuk pengumpulan dataset sendiri mencari melalui sumber open source
melalui huggingface akan lebih mempersingkat waktu dan effort yang dikeluarkan
daripada membuat dataset itu sendiri.
Solusi dari sistem yang dipilih memiliki alur kerja sistem yang tergambar pada
Gambar III.1.
50
BAB IV
Pada bab ini, akan dijelaskan mengenai eksperimen yang dilakukan merujuk pada
rancangan solusi yang telah dijelaskan pada Bab III beserta evaluasi hasil dari
setiap eksperimen yang ada.
Pada penelitian ini, Bahasa Python menjadi dasar dalam melakukan implementasi.
implementasi sendiri nantinya akan terdiri atas data preparation, modeling,
evaluation, dan deployment. Penulis juga memanfaatkan beberapa perpustakaan
(library) yang bermanfaat dalam mendukung proses implementasi pada setiap
tahap. Rincian daftar perpustakaan yang digunakan pada tiap tahap dapat
ditemukan di Tabel IV.1.
No Tahapan Library
3 Evaluation jiwer
51
mesin. Spesifikasi server Google Cloud Platform yang digunakan dalam
penelitian ini dapat ditemukan di Tabel IV.2.
Komponen Spesifikasi
IV.2 Eksperimen
Untuk eksperimen pengembangan modul alih suara menjadi teks pada tugas akhir
kali ini akan dilakukan dengan cara melakukan implementasi pada model yang
sudah dipilih dengan tahapan implementasi dimulai dengan data preparation,
modeling. Kemudian akan dilakukan pengujian kepada masing-masing model
yang sudah di implementasi untuk menentukan model mana yang paling baik.
Terakhir ketika sudah menemukan model yang paling baik akan dilakukan
deployment untuk integrasi dengan aplikasi.
Eksperimen disini memiliki tujuan utama yaitu untuk membuktikan hasil yang
didapatkan berdasarkan studi literatur dalam pengerjaan tugas akhir kali ini serta
menentukan model alih suara menjadi teks mana yang paling tepat untuk aplikasi
transkrip wawancara. Tujuan lain dari eksperimen pada pengerjaan tugas akhir
kali ini adalah untuk mencari temuan-temuan baru yang tidak ditemukan dalam
pelaksanaan studi literatur. Kemudian tujuan akhir dalam eksperimen kali ini
adalah untuk mendapatkan kesimpulan mengenai apa saja yang perlu diperhatikan
dalam melaksanakan pembangunan model alih suara menjadi teks dengan konteks
52
bidang spesifik yaitu wawancara pekerjaan dibandingkan dengan percakapan
umum.
53
1. Data Preparation
Implementasi pertama pada proses ini adalah penggabungan data latih dan
data validasi dataset Common Voice. Berikut adalah cuplikan kode dalam
penggabungan data.
common_voice = DatasetDict()
print(common_voice)
Algoritma di atas juga melakukan pemisahan antara data latih dan data uji.
Setelah melakukan penggabungan dan pemisahan data latih dan data uji,
dilakukan pengecekan mengenai detail data yang akan digunakan. Berikut
adalah cuplikan kode pengecekan detail data.
DatasetDict({
train: Dataset({
features: ['client_id', 'path', 'audio', 'sentence', 'up_votes',
'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
num_rows: 8333
})
test: Dataset({
features: ['client_id', 'path', 'audio', 'sentence', 'up_votes',
'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
num_rows: 3649
})
})
Setelah mengetahui detail dari suatu data yang ada, dilakukan pemilihan
fitur yang akan digunakan untuk pelatihan model. Fitur yang akan
digunakan adalah fitur audio dan sentence sebagai file audio dan transkrip
dari file audio tersebut. Berikut adalah cuplikan kode pemilihan fitur.
54
common_voice = common_voice.remove_columns(
["accent", "age", "client_id", "down_votes", "gender", "locale", "path",
"segment", "up_votes", "variant"]
)
print(common_voice)
{'audio': {'path':
'/root/.cache/huggingface/datasets/downloads/extracted/a300851d5f8f83446e051857
7a5c0e445b9879874d9eb04a87faf332819dd463/common_voice_id_25361388.mp3',
'array': array([-2.32830644e-09, 1.86264515e-09, -9.31322575e-10, ...,
-2.64349492e-05, -7.05649245e-06, 2.22347239e-06]), 'sampling_rate':
16000}, 'sentence': 'Saya mendengarkan cerita membosankan dari teman saya.'}
2. Modeling
55
Gambar IV.6 Impor Wav2Vec2Processor
56
Berikut adalah cuplikan kode ketika ingin melengkapi hyperparameter
yang ada serta melakukan training.
57
IV.2.2.2 Skenario Eksperimen Whisper-small dan Whisper-large
1. Data Preparation
Implementasi pertama pada proses ini adalah penggabungan data latih dan
data validasi dataset Common Voice. Berikut adalah cuplikan kode dalam
penggabungan data.
common_voice = DatasetDict()
print(common_voice)
Algoritma di atas juga melakukan pemisahan antara data latih dan data uji.
Setelah melakukan penggabungan dan pemisahan data latih dan data uji,
dilakukan pengecekan mengenai detail data yang akan digunakan. Berikut
adalah cuplikan kode pengecekan detail data.
58
DatasetDict({
train: Dataset({
features: ['client_id', 'path', 'audio', 'sentence', 'up_votes',
'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
num_rows: 8333
})
test: Dataset({
features: ['client_id', 'path', 'audio', 'sentence', 'up_votes',
'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
num_rows: 3649
})
})
Setelah mengetahui detail dari suatu data yang ada, dilakukan pemilihan
fitur yang akan digunakan untuk pelatihan model. Fitur yang akan
digunakan adalah fitur audio dan sentence sebagai file audio dan transkrip
dari file audio tersebut. Berikut adalah cuplikan kode pemilihan fitur.
common_voice = common_voice.remove_columns(
["accent", "age", "client_id", "down_votes", "gender", "locale", "path",
"segment", "up_votes", "variant"]
)
print(common_voice)
59
{'audio': {'path':
'/root/.cache/huggingface/datasets/downloads/extracted/a300851d5f8f83446e051857
7a5c0e445b9879874d9eb04a87faf332819dd463/common_voice_id_25361388.mp3',
'array': array([-2.32830644e-09, 1.86264515e-09, -9.31322575e-10, ...,
-2.64349492e-05, -7.05649245e-06, 2.22347239e-06]), 'sampling_rate':
16000}, 'sentence': 'Saya mendengarkan cerita membosankan dari teman saya.'}
2. Modeling
processor = WhisperProcessor.from_pretrained(model_name_or_path,
language=language, task=task)
model = WhisperForConditionalGeneration.from_pretrained(model_name_or_path)
60
Gambar IV.16 Kode Training Whisper
61
Gambar IV.17 Alur Pengujian dengan Data Uji dar Common Voice
Pada tahap kedua, berdasarkan hasil pengujian dengan tahap satu, akan dipilih
empat model yang akan diuji lebih lanjut dengan data uji yang diberikan oleh
pemilik masalah karena tujuan dari penelitian kali ini mencari model yang tepat
untuk digunakan dalam melakukan transkripsi wawancara pekerjaan. Alasan
diadakannya skenario pengujian tambahan dengan data uji berasal dari bidang
yang spesifik karena percakapan yang ada pada wawancara relatif lebih formal
dibandingkan dengan audio umum berdasarkan hasil pengamatan dari data yang
diberikan oleh pemilik masalah dan data Common Voice. Pemilihan model yang
akan digunakan berdasarkan WER yang dihasilkan dan waktu proses pada server
untuk memastikan model yang dipilih tepat dan cepat. Audio yang digunakan
adalah audio wawancara dengan durasi bervariasi dari 5 sampai 7 menit. Proses
pengujian dengan data audio dapat dilihat pada Gambar.
Gambar IV.18 Alur Pengujian dengan Data Uji dari Pemilik Masalah
Pengujian tahap dua ini ditujukan untuk mendapatkan temuan-temuan baru yang
tidak ditemukan dalam pelaksanaan studi literatur serta mendapatkan apa-apa saja
yang perlu diperhatikan dalam proses pembangunan model.
62
dengan komponen yang diberikan adalah waktu training dan akurasi berupa
WER.
Tabel IV.3 Hasil Pengujian Model dengan data uji Common Voice
1. XLSR-large-Wav2Vec2 - 42.4%
(baseline)
Tabel IV.4 Hasil Pengujian Model Terpilih dengan Data Uji Wawancara
63
Selain hasil dari eksperimen, didapatkan juga suatu penemuan berupa
mempersiapkan virtual machine seperti yang sudah dituliskan pada Tabel IV.2.
Hal ini ditujukan demi kelancaran eksperimen pada saat melakukan modeling
khususnya pada saat melakukan training model yang sedang di-fine-tuning.
Penelitian kali ini menggunakan metrik utama WER dan waktu proses karena
tujuan awal dari penelitian kali ini adalah menentukan model yang tepat dan cepat
dalam hal melakukan transkripsi suara wawancara (bidang yang spesifik). Word
Error Rate disini berperan sebagai parameter penentu seberapa tepat model dan
waktu proses disini berperan sebagai parameter penentu seberapa cepat model
melakukan transkripsi. Berdasarkan hasil evaluasi masing-masing model yang
terdapat pada Tabel IV.3 dapat disimpulkan bahwa model Whisper-large baseline
memiliki performa yang paling baik dengan pertimbangan kedua metrik yang
digunakan.
Hasil yang diperoleh oleh setiap model sesuai dengan asumsi awal bahwa model
Whisper lebih tepat digunakan daripada model Wav2Vec2. Whisper sendiri juga
menangkap pungtuasi dan kapitalisasi kalimat sedangkan Wav2Vec2 hanya
sekedar memberikan transkripsi kata saja tanpa adanya pungtuasi dan kapitalisasi
kalimat. Whisper dilatih dalam mode supervised menggunakan korpus yang
sangat besar yang terdiri dari 680.000 jam data ucapan multibahasa yang diambil
dari web (Wav2Vec2 hanya 60.000 jam data ucapan dari LibriVox). OpenAI
mengacu pada pelatihan ini sebagai "weakly supervised" karena label tidak
diverifikasi oleh manusia dan oleh karena itu mungkin mengandung noise.
Sumber dan karakteristik domain dari data pelatihan ini tidak diketahui. Meskipun
demikian, jelas bahwa korpus pelatihan Whisper jauh melampaui korpus pelatihan
model Wav2Vec2 baik dalam skala maupun keragaman. Hal ini membuat Whisper
lebih unggul daripada Wav2Vec2. Kemudian diantara tipe model Whisper yang
ada ditemukan Whisper-large baseline menunjukkan hasil yang lebih baik ketika
64
diujikan kepada data uji dari pemilik masalah dibandingkan dengan model
lainnya. Hal ini bisa terjadi karena dataset latih Common Voice yang digunakan
untuk fine-tuning membuat model tersebut menjadi over fitting. Jadi sebagai
simpulan model yang digunakan nantinya adalah model Whisper-large baseline
karena menunjukkan hasil yang akurat dan relatif cepat dibandingkan dengan
model-model lainnya.
Dalam eksperimen ini dipilih model Whisper-large karena memiliki akurasi paling
baik dengan waktu proses yang cepat. Whisper-large sendiri menjadi model yang
digunakan dan dilakukan proses deployment untuk integrasi dengan aplikasi
utama. Proses deployment disini memanfaatkan Google Cloud Function untuk
menjadi API agar bisa diakses oleh Backend serta memanfaatkan free trial dari
GCP dan mempelajari bagaimana cara membuat script Google Cloud Function.
Kemudian untuk melakukan deployment model itu sendiri memanfaatkan Gradio
karena file model yang sangat besar (6.17 GB) diputuskan untuk melakukan
deployment via Gradio yang nantinya mendapatkan link publik deployment yang
akan di input pada script Google Cloud Function. Inputan yang diterima oleh
model yang sudah di deploy pada Gradio berupa link publik audio.
65
BAB V
V.1 Kesimpulan
1. Model alih suara menjadi teks yang tepat antara Wav2Vec2 dan Whisper
adalah model Whisper dan lebih tepatnya model Whisper-large.
2. Whisper-large sebagai model yang dipilih memiliki kinerja berupa tingkat
akurasi dengan metrik WER 10.9% dengan waktu proses rata-rata 5 menit
25 detik untuk audio berdurasi 5-7 menit.
3. Parameter yang digunakan dalam pembuatan model pre-trained
berpengaruh dalam kinerja model untuk menjadi lebih akurat seperti
model Whisper-large yang memiliki parameter 1.550 juta berbanding
dengan Wav2Vec2-XLSR-53 yang memiliki hanya 300 juta parameter.
4. Transkripsi audio pada dataset memang diperlukan agar model pre-trained
lebih mendapatkan akurasi yang lebih baik. Sesuai dengan model
Whisper-large yang dilatih dengan cara weakly supervised memiliki
akurasi yang lebih baik daripada Wav2Vec2-XLSR-53 yang dilatih dengan
cara semi-supervised.
5. Suatu kualitas dataset yang digunakan sebagai data latih sangat
berpengaruh kepada kinerja akurasi suatu model alih suara menjadi teks.
Dataset yang buruk dapat menyebabkan over-fitting model terhadap
dataset tersebut seperti dataset audio Common Voice.
66
V.2 Saran
Dalam melakukan proses penelitian pada pembangunan model alih suara menjadi
teks pada aplikasi wawancara pekerjaan berbasis pembelajaran mesin, terdapat
beberapa saran yang dapat digunakan pada pengembangan selanjutnya.
67
DAFTAR PUSTAKA
68
Jurafsky, Martin. (2020). Speech and Language Processing.
https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
Mozilla. “Mozilla-Foundation/Common_voice_13_0 · Datasets at Hugging Face.”
mozilla-foundation/common_voice_13_0 · Datasets at Hugging Face.
Accessed July 10, 2023.
Norvig, Peter., Russell, Stuart Jonathan. Artificial Intelligence: A Modern
Approach. United Kingdom: Pearson, 2021.
Novitasari, Sashi, Andros Tjandra, Sakriani Sakti and Satoshi Nakamura.
“Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese,
and Bataks Speech Recognition and Synthesis.” Workshop on Spoken
Language Technologies for Under-resourced Languages (2020).
Open Ai. “Openai/Whisper-Large-V2 · Hugging Face.” openai/whisper-large-v2 ·
Hugging Face. Accessed July 10, 2023.
https://huggingface.co/openai/whisper-large-v2.
Radford, Alec, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey,
and Ilya Sutskever. "Robust Speech Recognition via Large-Scale Weak
Supervision." In International Conference on Machine Learning, pp.
28492-28518. PMLR, 2023.
Steinkraus, D., I. Buck, and P.Y. Simard. “Using Gpus for Machine Learning
Algorithms.” Eighth International Conference on Document Analysis and
Recognition (ICDAR’05), 2005. https://doi.org/10.1109/icdar.2005.251.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,
Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is All
You Need." Proceedings of the 31st International Conference on Neural
Information Processing Systems (2017).
Washani, Nitin, and Sandeep Sharma. “Speech Recognition System: A Review.”
International Journal of Computer Applications 115, no. 18 (2015): 7–10.
https://doi.org/10.5120/20249-2617.
69
Wirawan, Cahya. “Cahya/Whisper-Large-ID · Hugging Face.”
cahya/whisper-large-id · Hugging Face. Accessed July 10, 2023.
https://huggingface.co/cahya/whisper-large-id.
Yu, D., & Deng, L. (2016). AUTOMATIC SPEECH RECOGNITION. Springer
London limited.
70
Lampiran A. Rencana Umum Proyek
1. Sistem web application, sistem ini termasuk sisi front end dan back end
yang mengintegrasikan subsistem lain
2. Sistem speech to text, sistem ini berupa model machine learning yang
berfungsi untuk memproses ucapan menjadi teks
3. Sistem interview summarization, sistem ini berupa model machine
learning yang berfungsi untuk merangkum teks (interview)
71
Lampiran B. Spesifikasi Kebutuhan Sistem
ID Kebutuhan Penjelasan
72
kandidat untuk dievaluasi
kompetensinya
F-113 Sistem dapat membuat Sistem memiliki fitur buat ruangan baru
ruangan interview baru yang dapat digunakan oleh representasi
untuk representasi pemberi pemberi kerja untuk membuat ruangan
kerja interview bagi kandidat
73
F-115 Sistem dapat mengubah Sistem memiliki fitur mengubah status
status ruangan interview ruangan interview bagi representasi
untuk representasi pemberi pemberi kerja untuk mengubah ruangan
kerja interview suatu kandidat
F-116 Sistem dapat menampilkan Sistem memiliki fitur tampil detail profil
detail profil untuk kandidat bagi kandidat dan representasi pemberi
dan representasi pemberi kerja
kerja
F-117 Sistem dapat mengubah Sistem memiliki fitur ubah detail profil
detail profil untuk kandidat jika diperlukan bagi kandidat dan
dan representasi pemberi representasi pemberi kerja
kerja
74
Lampiran C. Rancangan Sistem
Rancangan sistem dari proyek capstone ini dalam diagram arsitektur adalah
sebagai berikut.
75
76