Dwianditya Hanif Raharjanto

PENGEMBANGAN MODEL ALIH SUARA MENJADI TEKS
INTERVIEW SUMMARIZATION SYSTEM BERBASIS
MACHINE LEARNING
Laporan Tugas Akhir

Pengembangan Interview Summarization System Untuk Job
Recruitment
Disusun sebagai syarat kelulusan tingkat sarjana
Oleh
Dwianditya Hanif Raharjanto
NIM : 13519046
PROGRAM STUDI TEKNIK INFORMATIKA

SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA
INSTITUT TEKNOLOGI BANDUNG
Agustus 2023
MACHINE LEARNING
Laporan Tugas Akhir
Oleh
NIM : 13519046
Program Studi Teknik Informatika
Sekolah Teknik Elektro dan Informatika
Institut Teknologi Bandung
Telah disetujui dan disahkan sebagai Laporan Tugas Akhir

di Bandung, pada tanggal 7 Agustus 2023
Pembimbing I, Pembimbing II,
Dr. Ir. Gusti Ayu Putri Saptawati S., M.Comm. Ir. Ricardo Irwan Rei, M.Sc., M.B.A.
NIP. 196509241995012001 NIP. -
LEMBAR IDENTITAS
TUGAS AKHIR CAPSTONE
Judul Proyek TA : Pengembangan Interview Summarization System Untuk

Job Recruitment
Anggota Tim dan Pembagian Peran:
No. NIM Nama Peran

1 13519037 Arsa Daris Gintara Front-End dan Back-End
Developer
2 13519046 Dwianditya Hanif Raharjanto Automatic Speech
Recognition Developer
3 13519085 Nizamixavier Rafif Lutvie Natural Language
Processing Developer
Bandung, 7 Agustus 2023

Mengetahui,
Pembimbing I, Pembimbing II,
Dr. Ir. Gusti Ayu Putri Saptawati S., M.Comm. Ir. Ricardo Irwan Rei, M.Sc., M.B.A.
NIP. 196509241995012001 NIP.
LEMBAR PERNYATAAN
Dengan ini saya menyatakan bahwa:
1. Pengerjaan dan penulisan Laporan Tugas Akhir ini dilakukan tanpa

menggunakan bantuan yang tidak dibenarkan.
2. Segala bentuk kutipan dan acuan terhadap tulisan orang lain yang digunakan
di dalam penyusunan laporan tugas akhir ini telah dituliskan dengan baik dan
benar.
3. Laporan Tugas Akhir ini belum pernah diajukan pada program pendidikan di
perguruan tinggi mana pun.
Jika terbukti melanggar hal-hal di atas, saya bersedia dikenakan sanksi sesuai
dengan Peraturan Akademik dan Kemahasiswaan Institut Teknologi Bandung
bagian Penegakan Norma Akademik dan Kemahasiswaan khususnya Pasal 2.1
dan Pasal 2.2.
Bandung, 7 Agustus 2023

NIM. 13519046
ABSTRAK

MACHINE LEARNING
Oleh
DWIANDITYA HANIF RAHARJANTO
NIM : 13519046
Regenerasi SDM pada suatu perusahaan itu sangat penting untuk menjaga
keberjalanan perusahaan tersebut dan mencapai visi misi dari perusahaan tersebut.
Regenerasi SDM dapat diperoleh dengan cara melakukan rekrutmen pekerjaan.
Namun, rekrutmen pekerjaan sendiri memakan waktu dan biaya yang besar untuk
mendapatkan kandidat yang sesuai. Disinilah tugas akhir kali ini memberikan
solusi dengan mengkolaborasikan mesin dengan manusia untuk membantu pada
bagian waktu dan biaya kepada perusahaan, khususnya pada bagian wawancara.
Pada tugas akhir kali ini difokuskan dalam pembuatan transkrip wawancara
dengan memanfaatkan model alih suara menjadi teks serta memilih model mana
antara Wav2Vec2 (Wav2Vec2-XLSR-53) dengan Whisper (Whisper-small dan
Whisper-large) yang tepat untuk kasus ini.
Menurut riset yang dilakukan model Whisper memiliki kinerja lebih baik daripada
Wav2Vec2 karena model tersebut merupakan model yang dilatih dengan weakly
supervised sedangkan Wav2Vec2 dilatih dengan semi-supervised. Kemudian
korpus latih yang digunakan Whisper lebih lama daripada Wav2Vec2 serta
parameter yang ada pada model Whisper yang lebih banyak daripada Wav2Vec2
yaitu 1.550 juta parameter berbanding dengan 300 juta.
Berdasarkan hasil eksperimen didapatkan bahwa Whisper, khususnya
Whisper-large, memang lebih baik daripada Wav2Vec2 dari segi kinerja dengan
memiliki akurasi berupa WER sebesar 10.9% dengan waktu proses rata-rata 5
menit 23 detik untuk audio berdurasi 5-7 menit. Sedangkan Wav2Vec2-XLSR-53
memiliki WER sebesar 22.2% dengan waktu proses 13 menit 20 detik.
Model yang digunakan untuk membantu proses wawancara pekerjaan disini
adalah Whisper-large karena memiliki kinerja yang sesuai dengan kebutuhan yang
ada yaitu akurat dan cepat.
Kata kunci: Automatic Speech Recognition, Word Error Rate, Whisper,

Wav2Vec2, Transformer.
5
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas rahmat
dan karunia-Nya, tugas akhir yang berjudul “Pengembangan Model Alih Suara
Menjadi Teks Interview Summarization System Berbasis Machine Learning” dapat
penulis selesaikan sebagai syarat kelulusan tingkat sarjana. Selama pelaksanaan
tugas akhir ini, penulis banyak mendapatkan bantuan dan dukungan dari berbagai
pihak. Oleh karena itu, penulis ingin mengucapkan terima kasih kepada:
1. Ibu Dr. Ir. Gusti Ayu Putri Saptawati Soekidjo, M.Comm. dan Bapak
Ricardo Irwan Rei selaku dosen pembimbing atas bimbingan, masukan,
ilmu, dan nasehatnya dalam pengerjaan tugas akhir ini.
2. Bapak Dr. Judhi Santoso M.Sc., selaku dosen wali yang senantiasa
membimbing dan memfasilitasi penulis dalam menempuh perjalanan
perkuliahan baik dalam bidang akademik maupun non akademik
3. Bapak Adi Mulyanto, S.T.,M.T., Bapak Dicky Prima Satya, S.T., M.T., Ibu
Latifa Dwiyanti, S.T., M.T., dan Ibu Robithoh Annur, S.T., M.Eng., Ph.D.
selaku dosen koordinator tugas akhir yang senantiasa memberikan arahan
dan memfasilitasi keberlangsungan rangkaian proses tugas akhir.
4. Seluruh Bapak dan Ibu dosen pengajar Teknik Informatika Institut
Teknologi Bandung yang sudah membimbing penulis dalam hal keilmuan
selama kuliah yang menjadi bekal untuk penulisan tugas akhir ini.
5. Orang tua dan keluarga penulis yang telah memberi dukungan material
serta motivasi dan doa untuk penulis dalam menyelesaikan program studi
sarjana pada kampus ITB.
6. Arsa Daris Gintara dan Nizamixavier Rafif Lutvie selaku teman
sekelompok penulis dalam tugas akhir ini
7. Zarfa Naida Pratista yang telah memberikan dorongan, dukungan, dan
bantuan untuk penulis dalam mengerjakan tugas akhir
6
8. Faiq yang telah menjadi teman diskusi penulis dalam pengerjaan tugas
akhir ini
9. Fadel, Kiki, Fabian, Agung, Anas, Tito, Fawwaz, dan Cindy yang telah
memberikan dukungan mental dan menemani penulis selama pengerjaan
tugas akhir
10. Teman-teman Teknik Informatika 2019 yang telah ada bersama penulis
selama menjalani perkuliahan di ITB
11. Pihak-pihak lain yang tidak dapat disebutkan satu persatu yang telah ikut
membantu dan memberikan dukungan kepada penulis selama pengerjaan
tugas akhir
7
DAFTAR ISI
ABSTRAK.............................................................................................................. 5
KATA PENGANTAR.............................................................................................6
BAB I PENDAHULUAN.....................................................................................14
I.1 Latar Belakang............................................................................................ 14
I.2 Rumusan Masalah.......................................................................................16
I.3 Tujuan......................................................................................................... 16
I.4 Batasan Masalah......................................................................................... 17
I.5 Metodologi..................................................................................................17
I.6 Sistematika Pembahasan.............................................................................19
BAB II STUDI LITERATUR..............................................................................21
II.1 Rekrutmen................................................................................................. 21
II.2 Wawancara Pekerjaan................................................................................23
II.3 Pengenalan Ucapan................................................................................... 24
II.3.1 Pengenalan Ucapan Sederhana.........................................................25
II.3.2 Arsitektur Pengenalan Ucapan Berbasis Transformers.................... 26
II.4 Teknik Pembuatan Model..........................................................................29
II.4.1 Pembuatan Model secara Pre-trained............................................... 29
II.4.2 Pembuatan Model secara Fine Tuning............................................. 30
II.5 Model Alih Suara Menjadi Teks................................................................31
II.5.1 Model Wav2Vec2 dari FAIR............................................................ 31
II.5.2 Model Whisper dari OpenAI............................................................ 31
II.6 Platform Huggingface............................................................................... 33
II.7 Metrik Pengujian Word Error Rate............................................................34
8
II.8 Penelitian Terkait.......................................................................................35
BAB III ANALISIS MASALAH DAN RANCANGAN SOLUSI
MODEL ALIH SUARA MENJADI TEKS INTERVIEW
SUMMARIZATION SYSTEM...........................................................................37
III.1 Analisis Masalah...................................................................................... 37
III.1.1 Business Understanding.................................................................. 37
III.1.2 Data Understanding.........................................................................38
III.2 Analisis Solusi..........................................................................................44
III.2.1 Penentuan Arsitektur dan Model.....................................................44
III.2.2 Data Preparation..............................................................................45
III.2.3 Modeling......................................................................................... 47
III.2.4 Evaluation....................................................................................... 48
III.2.5 Deployment..................................................................................... 48
III.3 Deskripsi Umum Solusi........................................................................... 49
BAB IV EKSPERIMEN DAN EVALUASI HASIL.......................................... 50
IV.1 Lingkungan Implementasi........................................................................ 50
IV.2 Eksperimen............................................................................................... 51
IV.2.1 Tujuan Eksperimen..........................................................................51
IV.2.2 Skenario Eksperimen.......................................................................52
IV.2.2.1 Skenario Eksperimen Wav2Vec2-XLSR-53.............................52
IV.2.2.2 Skenario Eksperimen Whisper-small dan Whisper-large.........57
IV.2.2.3 Skenario Pengujian Tiap Eksperimen...................................... 60
IV.2.3 Hasil dan Evaluasi........................................................................... 61
IV.2.3.1 Hasil Pengujian..........................................................................61
IV.2.3.2 Evaluasi Hasil Pengujian...........................................................63
IV.2.4 Kesimpulan Eksperimen..................................................................64
9
BAB V KESIMPULAN DAN SARAN............................................................... 65
V.1 Kesimpulan................................................................................................ 65
V.2 Saran.......................................................................................................... 66
DAFTAR PUSTAKA............................................................................................67
10
DAFTAR LAMPIRAN
Lampiran A. Rencana Umum Proyek................................................................70

Lampiran B. Spesifikasi Kebutuhan Sistem......................................................71
Lampiran C. Rancangan Sistem.........................................................................74
11
DAFTAR GAMBAR
Gambar I.1 Tahapan Utama Metodologi CRISP-DM (Ahmadi, 2020)................. 19

Gambar II.1 Diagram Proses Seleksi (Waldt, 2014).............................................. 23
Gambar II.2 Arsitektur Umum Automatic Speech Recognition
(Keshet & Bengio, 2009)....................................................................................... 26
Gambar II.3 Arsitektur ASR berbasis Transformer (Dong et al. 2018)................. 29
Gambar II.4 Arsitektur Whisper (Radford dkk., 2022)..........................................33
Gambar III.1 Data Common Voice........................................................................ 40
Gambar III.2 Tipe Data dari Kolom Dataset..........................................................41
Gambar III.3 Kalkulasi Durasi Klip Audio............................................................42
Gambar III.4 Histogram dan Boxplot untuk Durasi...............................................42
Gambar III.5 Histogram dan Boxplot untuk Kata..................................................43
Gambar III.6 Histogram dan Boxplot untuk Karakter........................................... 44
Gambar III.7 Diagram Kerja Sistem...................................................................... 50
Gambar IV.1 Impor Dataset Skenario 1................................................................. 54
Gambar IV.2 Dataset Latih dan Dataset Uji Skenario 1.........................................54
Gambar IV.3 Penghapus Kolom yang Tidak Dipakai Skenario 1..........................55
Gambar IV.4 Resampler Audio Skenario 1............................................................55
Gambar IV.5 Audio Setelah Resampling Skenario 1............................................. 55
Gambar IV.6 Impor Wav2Vec2Processor...............................................................56
Gambar IV.7 Load Model Wav2Vec2-XLSR-53................................................... 56
Gambar IV.8 Kode Training Wav2Vec2-XLSR-53................................................57
Gambar IV.9 Impor Dataset Skenario 2................................................................. 58
Gambar IV.10 Dataset Latih dan Dataset Uji Skenario 2.......................................59
12
Gambar IV.11 Penghapus Kolom Skenario 2.........................................................59
Gambar IV.12 Resampler Audio............................................................................ 59
Gambar IV.13 Audio Setelah Resampling............................................................. 60
Gambar IV.14 Impor WhisperProcessor................................................................ 60
Gambar IV.15 Load Model Whisper...................................................................... 60
Gambar IV.16 Kode Training Whisper.................................................................. 61
Gambar IV.17 Alur Pengujian dengan Data Uji dar Common Voice.....................62
Gambar IV.18 Alur Pengujian dengan Data Uji dari Pemilik Masalah................. 62
13
DAFTAR TABEL
Tabel II.1 Studi Literatur Pelatihan Model ASR pada Dataset

Mozilla Common Voice......................................................................................... 37
Tabel III.1 Spesifikasi Dataset Pemilik Masalah................................................... 44
Tabel III.2 Spesifikasi Model yang Digunakan......................................................48
Tabel IV.1 Penggunaan Library..............................................................................51
Tabel IV.2 Spesifikasi Server Google Colab Virtual Machine GCP...................... 52
Tabel IV.3 Hasil Pengujian Model dengan data uji Common Voice...................... 63
Tabel IV.4 Hasil Pengujian Model Terpilih dengan Data Uji Wawancara............. 63
14
BAB I
PENDAHULUAN
Bab Pendahuluan secara umum yang dijadikan landasan kerja dan arah kerja
penulis tugas akhir, berfungsi mengantar pembaca untuk membaca laporan tugas
akhir secara keseluruhan.
I.1 Latar Belakang
Sumber Daya Manusia (SDM) merupakan hal yang penting untuk kesuksesan
suatu perusahaan. Karena melalui SDM inilah suatu perusahaan dapat mencapai
visi dan misi serta melaksanakan strategi yang dibuat oleh perusahaan tersebut.
SDM sendiri bisa diartikan sebagai suatu jasa atau usaha kerja yang dilakukan
oleh seseorang untuk menghasilkan suatu barang dan jasa (Sumarsono, 2003).
Melalui pentingya peran SDM untuk keberlangsungan perusahaan, maka
diperlukan suatu regenerasi SDM. Regenerasi SDM sendiri memiliki arti untuk
memperbaharui SDM yang ada dengan tujuan untuk memastikan keberlanjutan
dan kesuksesan jangka panjang perusahaan tersebut.
Proses rekrutmen diadakan untuk mewujudkan regenerasi SDM. Rekrutmen disini

merupakan suatu proses pencarian dan “pemikatan” para calon karyawan
(pelamar) yang mampu untuk melamar sebagai karyawan (Handoko, 2006).
Melalui proses rekrutmen ini harapan dari perusahaan adalah untuk menemukan
karyawan yang cocok untuk bidang yang diinginkan oleh perusahaan tersebut atau
dengan kata lain adalah “the Right Man on the Right Place” (Potale et al., 2016).
Proses rekrutmen sendiri terdapat banyak jenisnya, tetapi yang paling umum
dilakukan adalah mendata kebutuhan perusahaan serta menyiapkan deskripsi
pekerjaan, melakukan diskusi mengenai proses rekrutmen yang ingin dilakukan,
pemilihan CV kandidat, evaluasi hasil pemilihan CV, wawancara kandidat,
evaluasi hasil wawancara, tahap tambahan sesuai kebutuhan perusahaan, dan
15
penerimaan kandidat. Proses yang dilakukan bertujuan untuk memenuhi harapan
perusahaan yaitu menemukan karyawan yang cocok untuk bidang yang
diinginkan oleh perusahaan (Kumar, 2014).
Namun, dalam keadaan nyatanya proses rekrutmen yang sudah dijelaskan di atas
masih memiliki masalah mengenai pencapaian harapan perusahaan yaitu
menemukan SDM yang “tepat” dari banyaknya kandidat yang mendaftar. Pada
kasus nyatanya suatu perusahaan perlu mengerahkan sumber daya lain yang besar
untuk memenuhi proses rekrutmen tersebut mulai dari sumber daya manusia
untuk mengevaluasi kandidat yang ada, biaya untuk membayar sumber daya
manusia dan sumber daya lain yang mendukung proses evaluasi, dan waktu
panjang karena banyaknya kandidat yang mendaftar. Bahkan dengan berbagai
usaha yang dilakukan oleh perusahaan tersebut tetap menemui masalah mengenai
kesesuaian kandidat dengan keinginan perusahaan, padahal keadaan yang
diinginkan perusahaan adalah mendapatkan kandidat yang tepat dan cepat serta
meminimalisir biaya yang ada.
Terdapat solusi yang hadir untuk menjadi alternatif dalam meringankan masalah
yang ada, yaitu mengkolaborasikan manusia dengan mesin. Pada beberapa tahap
proses rekrutmen, terdapat tahap-tahap yang dapat dibantu oleh mesin untuk
mempermudah proses evaluasi. Mesin disini tidak semata-mata menggantikan
peran manusia yang ada, tetapi membantu manusia dalam menyelesaikan
tugasnya. Tahap-tahap yang dapat dibantu oleh mesin adalah tahapan pemilihan
CV kandidat dan wawancara. Pada tugas akhir kali ini akan lebih berfokus pada
pemanfaatan mesin di tahap wawancara yang nantinya akan diberikan hasil
ringkasan suatu wawancara kandidat dengan cara melakukan transkripsi
wawancara terlebih dahulu.
Untuk lebih spesifik mengenai hal yang dibahas pada bagian ini, pembahasan
yang difokuskan pada tugas akhir kali ini adalah mengenai pengubahan suara
menjadi teks untuk proses transkripsi wawancara. Hal ini diperlukan karena
16
proses ini merupakan awal dari rangkaian proses yang dilakukan oleh mesin untuk
membantu tahap wawancara yang ada.
I.2 Rumusan Masalah
Rumusan masalah dalam memenuhi keinginan mendapatkan calon karyawan yang

sesuai dengan kutipan “the Right Man on the Right Place” dengan cepat dan
akurat diperlukan model pembelajaran mesin dalam melakukan transkripsi
wawancara. Pembuatan model pembelajaran mesin yang melakukan transkripsi
wawancara akan dipilih dari model yang sudah ditentukan, yaitu Wav2Vec2 yang
dikembangkan oleh Facebook AI Research (FAIR) dan Whisper yang
dikembangkan oleh OpenAI. Oleh karena itu, dibentuklah rumusan masalah
sebagai berikut:
1. Model alih suara menjadi teks mana yang baik antara Wav2Vec2 dari
FAIR dan Whisper dari OpenAI yang dapat membantu proses transkripsi
wawancara berbahasa Indonesia berbasis pembelajaran mesin?
2. Apakah kinerja model alih suara menjadi teks yang dipilih pada nomor 1
dapat memenuhi kebutuhan pengguna pada bidang ini?
I.3 Tujuan
Berdasarkan rumusan masalah yang sudah dirumuskan, lahir tujuan yang ingin
dicapai pada tugas akhir ini adalah sebagai berikut:
1. Dapat menentukan model yang digunakan untuk alih suara menjadi teks di
antara Wav2Vec2 dari FAIR dan Whisper dari OpenAI untuk digunakan
dalam proses transkripsi wawancara berbasis pembelajaran mesin.
2. Dapat mengevaluasi kinerja model alih suara menjadi teks yang dipilih
pada proses transkripsi wawancara berbasis pembelajaran mesin.
17
I.4 Batasan Masalah
Berdasarkan rumusan masalah, maka akan didefinisikan batasan yang digunakan

pada penelitian tugas akhir ini, sebagai berikut:
1. Dataset yang digunakan untuk learning berasal dari dataset open-source

dan/atau berasal dari dataset yang sudah tersedia dari problem owner.
2. Dataset yang digunakan untuk learning menggunakan bahasa Indonesia.
3. Pada pengerjaan tugas akhir kali ini hanya berfokus pada membuat model
untuk mengubah ucapan menjadi teks.
4. Percakapan yang terjadi secara asynchronous sehingga percakapannya satu
arah (hanya pelamar saja).
I.5 Metodologi
Dalam pengerjaan tugas akhir ini, akan menggunakan metodologi Cross Industry
Standard Process for Data Mining (CRISP-DM). Metodologi ini banyak
digunakan dalam dunia data science untuk memahami permasalahan dan
menciptakan solusi yang sesuai. Meskipun awalnya dirancang untuk data mining,
CRISP-DM juga relevan dalam pengembangan model pembelajaran mesin,
termasuk deep learning (Ahmadi, 2020).
CRISP-DM terdiri atas enam tahapan utama, yaitu business understanding, data
understanding, data preparation, modeling, evaluation, dan deployment.
Tahapan-tahapan yang ada membantu memahami konteks bisnis, menggali
pemahaman tentang data yang digunakan, mempersiapkan data, membangun
model, mengevaluasi kinerja model, dan mengimplementasikan model ke dalam
produksi.
18
Gambar I.1 Tahapan Utama Metodologi CRISP-DM (Ahmadi, 2020)
1. Business Understanding
Pada tahap ini, hal yang difokuskan adalah dalam memahami tujuan dan
hasil yang harus dicapai dari proyek yang ada. Kegiatan utama termasuk
penentuan tujuan proyek, menganalisis situasi masalah yang ada,
menentukan tujuan dari model pembelajaran mesin, dan merancang
rencana proyek.
2. Data Understanding
Pada Tahap ini, hal yang difokuskan adalah mengidentifikasi,

mengumpulkan, dan menganalisis data yang akan digunakan untuk
mencapai tujuan proyek. Kegiatan utama mencakup pengumpulan data
awal, deskripsi data, eksplorasi data, dan penilaian kualitas data yang akan
digunakan.
19
3. Data Preparation
Tahapan ini bertujuan untuk mempersiapkan dataset yang akan digunakan

dalam tahapan pemodelan. Kegiatan utama mencakup pemilihan data yang
relevan, pembersihan data, konstruksi data, integrasi data, dan
pemformatan data sesuai dengan format yang digunakan model.
4. Modeling
Fokus dalam tahap ini adalah pembuatan model berdasarkan teknik yang
sudah ditentukan. Kegiatan utama termasuk pemilihan teknik pemodelan
yang sesuai, penentuan rancangan uji coba, membuat model, serta
melakukan analisis dan evaluasi terhadap model yang telah dibangun.
5. Evaluation
Pada tahap ini, tujuan utamanya adalah memberikan penilaian dan

memastikan bahwa model yang dibangun sesuai dengan tujuan bisnis yang
telah ditetapkan pada tahap pemahaman bisnis. Kegiatan utama mencakup
evaluasi hasil, meninjau proses yang telah dilakukan, dan menentukan
langkah selanjutnya.
6. Deployment
Tahapan ini bertujuan untuk melakukan implementasi model yang telah

dibangun agar dapat diakses oleh pengguna. Kegiatan utama meliputi
perencanaan implementasi, monitoring dan pemeliharaan model,
pembuatan laporan akhir, serta meninjau seluruh proyek secara
keseluruhan.
I.6 Sistematika Pembahasan
Sistematika pembahasan Tugas Akhir akan dibahas pada bagian ini. Tugas Akhir
disusun dalam lima bab yang terdiri atas Bab I Pendahuluan, Bab II Studi
Literatur, Bab III Analisis Masalah dan Rancangan Solusi, Bab IV Eksperimen,
20
dan Bab V Kesimpulan dan Saran. Adapun isi dari masing-masing bab sebagai
berikut:
1. Bab I Pendahuluan
Bab I membahas pendahuluan dari Tugas Akhir ini. Bab I meliputi latar
belakang, rumusan masalah, tujuan, batasan masalah, metodologi, dan
sistematika pembahasan.
2. Bab II Studi Literatur
Bab II membahas studi pada literatur yang berkaitan dengan Tugas Akhir
ini.
3. Bab III Analisis Masalah dan Rancangan Solusi
Bab III membahas deskripsi solusi terhadap permasalahan yang dibawa
oleh Tugas Akhir ini. Bab ini menjelaskan tentang analisis masalah,
analisis solusi, dan deskripsi umum solusi yang menjawab permasalahan
Tugas Akhir.
4. Bab IV Eksperimen
Bab IV berisi rincian implementasi dan pengujian solusi yang telah dipilih.
Bab ini terdiri dari pembangunan model, implementasi sistem, dan
pengujian solusi.
5. Bab V Kesimpulan dan Saran
Bab V berisi kesimpulan dan saran dari pengerjaan Tugas Akhir secara
keseluruhan.
21
BAB II
STUDI LITERATUR
Pada bab ini akan dijelaskan hasil studi literatur yang berkaitan dengan
pembuatan model alih suara menjadi teks pada sistem interview summarization
untuk job recruitment yang bertujuan untuk memenuhi gap pengetahuan ketika
membaca tugas akhir ini. Pembahasan akan dibagi menjadi Rekrutmen,
Wawancara Pekerjaan, Pengenalan Ucapan, Teknik Pembuatan Model, Model
Wav2Vec2 dari FAIR, Model Whisper dari OpenAI, Platform HuggingFace,
Metrik Pengujian Word Error Rate, Penelitian Terkait.
II.1 Rekrutmen
Proses rekrutmen adalah proses organisasi atau pemberi kerja untuk mendapatkan
pekerja baru yang sesuai dengan profil dan kebutuhan suatu organisasi. Proses ini
termasuk mengidentifikasi kebutuhan perekrutan, menyiapkan deskripsi pekerjaan
yang tersedia, mencari kandidat, menyaring kandidat, mewawancara kandidat (job
interview), memilih kandidat, memberikan tawaran kerja, dan memberikan
orientasi kerja.
Proses rekrutmen melibatkan pencarian dan penyesuaian kandidat potensial untuk

mengajukan lamaran pekerjaan di sebuah organisasi (Al-Harerat, 2020). Tujuan
utama dari rekrutmen adalah menyediakan kelompok kandidat yang cukup besar
agar manajer dapat melakukan seleksi terhadap calon pegawai yang dibutuhkan.
Menurut Raghavi dan Gopinathan (2013), rekrutmen dapat didefinisikan sebagai
proses mencari kelompok kandidat berkualitas untuk mengisi posisi pekerjaan
kosong di dalam organisasi. Dalam lingkungan profesional maupun
non-profesional, proses rekrutmen bertujuan untuk menciptakan kelompok
kandidat dengan latar belakang yang beragam dan memiliki kemampuan serta
keterampilan yang sesuai dengan kebutuhan.
22
Tahap berikutnya setelah proses rekrutmen adalah proses seleksi, yang melibatkan
pemilihan kandidat yang memiliki kompetensi yang relevan dengan pekerjaan
(Kumari, 2012). Menurut Kumari, proses seleksi tidak hanya sekadar memilih
kandidat terbaik, tetapi juga mencari kesesuaian antara apa yang kandidat
tawarkan dengan kebutuhan organisasi. Waldt (2014) melakukan studi yang
menjelaskan tahap-tahap proses rekrutmen dan seleksi secara komprehensif, dan
dapat dilihat dalam Gambar II.13.
Gambar II.1 Diagram Proses Seleksi (Waldt, 2014)
Mustapha (2013) menguraikan tahap-tahap dari proses rekrutmen dan seleksi

sebagai berikut:
1. Tahap Wawancara Pertama atau Pendahuluan: Tahap ini biasanya

berlangsung singkat dan bertujuan untuk mengeliminasi kandidat yang
jelas tidak memenuhi kualifikasi. Penampilan dan keterampilan berbicara,
serta motivasi kandidat dalam melamar pekerjaan, menjadi faktor penentu
dalam tahap ini.
2. Tahap Pengisian Formulir Lamaran: Formulir lamaran digunakan untuk
mendapatkan informasi faktual tentang kemampuan kandidat. Meskipun
23
demikian, semua informasi yang disampaikan dalam formulir lamaran
perlu dikonfirmasi lebih lanjut sebelum dipercaya sepenuhnya.
3. Tahap Referensi: Tahap ini bertujuan untuk mendapatkan informasi
tentang sikap dan perilaku kandidat, serta memverifikasi informasi yang
tercantum dalam formulir lamaran. Tahap referensi dapat dilakukan
sebelum atau setelah tahap wawancara.
4. Tes Psikologi: Tes psikologi digunakan untuk memberikan gambaran
mengenai karakteristik kandidat sehingga perusahaan dapat menempatkan
mereka di posisi yang sesuai. Perusahaan besar biasanya menggunakan tes
psikologi yang lebih rinci dan akurat, sedangkan perusahaan kecil
cenderung mengandalkan wawancara untuk mendapatkan informasi
karakteristik kandidat.
5. Tahap Wawancara: Wawancara merupakan proses evaluasi kandidat oleh
pewawancara di dalam lingkungan yang telah disiapkan. Tujuannya adalah
untuk mendapatkan informasi yang tidak diperoleh dari tahap lainnya,
seperti sikap kepemimpinan dan motivasi internal. Wawancara umumnya
bersifat subjektif dan sangat bergantung pada pewawancara.
6. Persetujuan oleh Supervisor: Tahap ini merupakan tahap terakhir setelah
kandidat berhasil melewati semua tahap sebelumnya. Pada tahap ini, dapat
dilakukan wawancara tambahan untuk menilai kesesuaian kandidat dengan
pegawai lain. Penilaian ini juga dapat dibantu oleh pegawai yang telah
berpengalaman langsung dengan kondisi kerja di perusahaan.
II.2 Wawancara Pekerjaan
Job Interview adalah suatu percakapan antara kandidat dengan representasi

pemberi kerja sebagai salah satu proses job recruitment yang dilakukan untuk
menilai apakah kandidat layak untuk dipekerjakan. Job Interview merupakan
proses dengan dua tujuan yakni representasi pemberi kerja memiliki tujuan untuk
24
mempekerjakan kandidat yang tepat dan kandidat memiliki tujuan untuk
mendapatkan pekerjaan yang tepat.
Proses job interview sering dilihat hanya dari satu perspektif saja yaitu dari
perspektif representasi pemberi kerja. Sedangkan proses job interview merupakan
komunikasi dua arah sehingga memiliki sifat dyadic, perlu untuk memperhatikan
perspektif dari kedua sisi. Representasi pemberi kerja dalam job interview
bermaksud untuk menggali informasi dari kandidat untuk memutuskan apakah
kandidat cocok untuk pekerjaan, unit, organisasi, dan aspek lain. Sedangkan
kandidat dalam job interview bermaksud untuk memberikan kesan yang baik
kepada representasi pemberi kerja dengan berbagi tentang pengetahuan, keahlian,
dan kelebihannya sambil menggali informasi tentang pekerjaan yang dilamar
untuk mendapatkan kesan tentang pekerjaan dan organisasi yang dilamar.
Kesuksesan dari sebuah job interview ini dapat ditentukan dari pendekatan yang
dilakukan antar sisi untuk mencapai tujuannya masing-masing dan bagaimana
menyelesaikan perbedaan tujuan tersebut (Schmitt, 2012, 323-352).
Proses job interview merupakan proses yang penting dalam job recruitment.
Proses ini jika dilakukan secara efektif dapat memastikan apakah kualitas,
kompetensi, dan keahlian kandidat sesuai dengan ekspektasi dari pemberi kerja
(Merin, 2022).
II.3 Pengenalan Ucapan
Berdasarkan Keshet & Bengio (2009) Pengenalan Ucapan atau lebih dikenal
sebagai Automatic Speech Recognition (ASR) adalah proses komputasi untuk
mengubah suara ke dalam bentuk teks. Terdapat beberapa mekanisme dasar dari
ASR, yaitu arsitektur ASR berbasis DNN, dan arsitektur ASR saat menggunakan
HTK.
25
II.3.1 Pengenalan Ucapan Sederhana
Arsitektur dari sebuah sistem Pengenalan Ucapan Sederhana terdiri atas empat
komponen sebagai berikut:
1. Pemrosesan Sinyal dan Ekstraksi Fitur (Signal Processing and Feature

Extraction)
2. Model Akustik (Acoustic Model)
3. Model Bahasa (Language Model)
4. Pencarian Hipotesis (Hypothesis Search)
Gambar II.2 Arsitektur Umum Automatic Speech Recognition (Keshet & Bengio,
2009)
Menurut gambar yang ada, dijelaskan lebih lanjut mengenai langkah-langkah

dasar yang ada pada alih suara menjadi teks. Berikut adalah penjelasan lebih
lanjut mengenai langkah-langkah yang ada.
1. Pemrosesan sinyal dan ekstraksi fitur
Langkah-langkah proses dimulai dari komponen pertama yang menerima

sinyal audio. Setelah menerima sinyal audio dilakukan proses pembuangan
noise, mengubah sinyal dari domain waktu menuju domain frekuensi, dan
26
ekstraksi fitur berupa vektor untuk diberikan hasilnya kepada model
akustik.
2. Pemrosesan via Model Akustik
Model akustik disini memiliki tugas untuk menggabungkan pengetahuan

mengenai akustik dan fonetik, menerima hasil dari komponen pertama
yang dijadikan masukan, dan menghitung skor akustik model dari proses
tersebut.
3. Pemrosesan via Model Bahasa
Setelah terhitung skor akustik model, Model bahasa menghitung skor

model bahasa yang merupakan estimasi dari kemungkinan rangkaian kata
dengan cara melihat korelasi antara kata-kata dari kumpulan data latih.
4. Hipotesa Keluaran
Komponen terakhir menggabungkan kedua skor tersebut dan

menghasilkan rangkaian kata berdasarkan skor yang paling tinggi.
Sistem ASR memiliki berbagai macam pendekatan seperti pendekatan berbasis

rule-based, model statistik, dan deep learning. Untuk pembahasan yang dipilih
adalah ASR dengan pendekatan deep learning karena deep learning diyakini
memiliki banyak kinerja state of the art dari sistem ASR (Tjandra et al., 2020).
II.3.2 Arsitektur Pengenalan Ucapan Berbasis Transformers
Arsitektur Transformers adalah sebuah model jaringan saraf yang telah menjadi
landasan dalam pengolahan bahasa alami (Natural Language Processing/NLP).
Transformers dikembangkan oleh Vaswani et al. pada tahun 2017 dan telah
membawa terobosan dalam pemahaman dan generasi teks. Arsitektur
Transformers didasarkan pada mekanisme perhatian (attention mechanism), yang
memungkinkan model untuk memperhatikan konteks global dalam urutan input.
Model ini cocok untuk tugas yang melibatkan pemrosesan teks berurutan, seperti
27
pemahaman bahasa, terjemahan mesin, dan banyak lagi. Arsitektur Transformers
terdiri dari dua komponen utama: encoder dan decoder.
Encoder bertanggung jawab untuk mempelajari representasi teks dari input,

sementara decoder digunakan untuk memprediksi urutan keluaran berdasarkan
representasi yang diperoleh dari encoder. Setiap lapisan dalam encoder dan
decoder Transformers terdiri dari beberapa blok. Setiap blok terdiri dari sublayer
dan mekanisme perhatian (self-attention). Mekanisme perhatian memungkinkan
model untuk mempelajari ketergantungan kontekstual antara kata-kata dalam
urutan input. Selama pelatihan, arsitektur Transformers dioptimalkan
menggunakan metode pembelajaran mendalam (deep learning) seperti
backpropagation dan stochastic gradient descent. Pelatihan ini memungkinkan
model untuk mempelajari hubungan dan pola yang kompleks dalam data teks.
Arsitektur Transformers telah menghasilkan hasil yang mengesankan dalam

berbagai tugas NLP dan telah digunakan secara luas dalam industri. Kemampuan
mereka untuk menangani hubungan jarak panjang dalam teks dan memperhatikan
konteks global telah membantu meningkatkan kualitas pemahaman dan generasi
teks secara signifikan.
Salah satu ASR berbasis Transformer adalah Speech-Transformer oleh Dong et al.
(2018). Speech-Transformer menggunakan arsitektur encoder-decoder. Penjelasan
lebih detail mengenai Speech-Transformer berdasarkan Gambar II.2 adalah
sebagai berikut.
1. Encoder
memiliki tugas untuk mengubah sekuens fitur suara ke sebuah representasi

tersembunyi (hidden representations).
2. Decoder
Representasi tersembunyi ini kemudian diproses oleh decoder yang

menghasilkan keluaran berupa sebuah karakter per satu waktu. Decoder
28
juga menggunakan karakter sebelumnya sebagai informasi tambahan
ketika menghasilkan suatu karakter.
Gambar II.3 Arsitektur ASR berbasis Transformer (Dong et al. 2018)
Sebagai model seq2seq non-rekuren, Speech-Transformer berbeda dari model

seq2seq rekuren dalam dua hal, yaitu encoder dan decoder terdiri dari multi-head
attention dan position-wise feed-forward network, bukan RNN dan keluaran
encoder diproses oleh setiap blok decoder, menggantikan proses attention
perantara yang hanya terjadi sekali.
29
II.4 Teknik Pembuatan Model
II.4.1 Pembuatan Model secara Pre-trained
Model pre-trained adalah model yang telah menjalani proses pelatihan

sebelumnya pada tugas tertentu atau dataset besar. Dalam konteks Pemrosesan
Bahasa Alami (Natural Language Processing/NLP), model pre-trained umumnya
melibatkan pembelajaran mesin yang dilakukan pada dataset teks besar, seperti
korpus Wikipedia atau koleksi dokumen web yang luas (Brown et al., 2020).
Proses pelatihan pre-trained dilakukan dengan memberikan model akses ke data

yang sangat besar dan beragam, sehingga model dapat mempelajari struktur
bahasa, hubungan antarkata, dan representasi kata yang kaya. Dalam NLP, model
pre-trained seperti BERT (Bidirectional Encoder Representations from
Transformers) (Devlin et al., 2019) atau GPT (Generative Pre-trained Transformer)
(Radford and Narasimhan, 2018) telah menjadi populer dan sukses dalam
berbagai tugas, termasuk pemahaman bahasa alami, penerjemahan mesin, dan
pemrosesan teks umum lainnya. Keuntungan utama dari model pre-trained adalah
bahwa mereka memiliki pemahaman yang lebih baik tentang struktur bahasa dan
dapat menghasilkan representasi yang lebih kaya untuk teks. Model pre-trained
memungkinkan transfer learning, di mana pengetahuan yang diperoleh dari
pelatihan sebelumnya pada tugas atau dataset tertentu dapat digunakan untuk
membantu memecahkan tugas lain yang mungkin memiliki sumber daya data
yang lebih terbatas. Dalam praktiknya, model pre-trained biasanya dijalani
melalui tahap fine-tuning, di mana model pre-trained disesuaikan atau
disempurnakan dengan dataset target yang lebih kecil dan khusus untuk tugas
tertentu yang diinginkan. Dengan demikian, model pre-trained dapat menyediakan
landasan yang kuat dan pengetahuan awal yang bermanfaat bagi sistem yang
memanfaatkannya dalam berbagai tugas pemrosesan bahasa alami.
30
II.4.2 Pembuatan Model secara Fine Tuning
(Joshi et al., 2020) melakukan klasifikasi bahasa dalam bidang Pemrosesan

Bahasa Alami (Natural Language Processing/NLP) berdasarkan sumbernya, dan
ditemukan bahwa hampir 90% populasi dunia menggunakan bahasa yang
termasuk dalam kategori sumber daya rendah (low resource) dalam kehidupan
sehari-hari. Bahasa dengan sumber daya rendah (Low Resource Languages/LRL)
dapat diartikan sebagai bahasa yang langka, kurang dikenal, atau memiliki tingkat
pendidikan yang rendah. Kondisi ini menghambat penggunaan teknologi bahasa
untuk memfasilitasi bahasa-bahasa tersebut, terutama dalam hal teknologi
Pengenalan Ucapan Otomatis (Automatic Speech Recognition/ASR).
Pemanfaatan ASR dalam bahasa dengan sumber daya rendah menjadi sulit karena
rendahnya tingkat melek huruf pada bahasa terkait dan kurangnya sistem
penulisan standar, sehingga sulit untuk memperoleh data linguistik yang
berkualitas sebagai atribut pelatihan.
Untuk mengatasi tantangan yang dihadapi oleh bahasa dengan sumber daya
rendah, sistem ASR dapat menggunakan teknik transfer learning. Transfer
learning merupakan pendekatan pembelajaran yang melibatkan penggunaan
kembali bobot model yang telah dilatih pada suatu tugas tertentu untuk melatih
model pada tugas lain (Russell & Norvig, 2021). Model akustik di-pre-trained
melalui pembelajaran terawasi menggunakan data berlabel, umumnya berasal dari
bahasa dengan sumber daya tinggi. Kemudian, bobot yang telah di-pre-trained ini
digunakan untuk mengenali bahasa dengan sumber daya rendah yang memiliki
jumlah data pelatihan yang terbatas (Russell & Norvig, 2021), dengan
memanfaatkan pengetahuan yang diperoleh dari proses pelatihan model tersebut.
31
II.5 Model Alih Suara Menjadi Teks
II.5.1 Model Wav2Vec2 dari FAIR
Model Wav2Vec2 adalah sebuah model yang dikembangkan oleh Facebook AI

Research (FAIR) untuk tugas pengenalan ucapan atau Automatic Speech
Recognition (ASR). Wav2Vec2 adalah pengembangan dari model asli Wav2Vec
yang dirilis sebelumnya. Model Wav2Vec2 menggunakan pendekatan pre-training
dan fine-tuning dalam pelatihannya. Dalam tahap pre-training, model dilatih pada
data suara yang sangat besar tanpa label menggunakan metode kontrastif. Proses
ini membantu model mempelajari representasi yang kaya dari sinyal suara dan
mengekstrak fitur yang relevan (Baevski et al, 2020).
Setelah tahap pre-training, model Wav2Vec2 diperhalus melalui fine-tuning

menggunakan data yang dilabeli untuk tugas pengenalan ucapan yang spesifik.
Model ini diberikan contoh-cara ucapan yang dikenal dan diberi tanda dengan
teks yang sesuai untuk melatih model dalam mengenali dan mentranskripsikan
ucapan dengan akurat.
Salah satu keunggulan model Wav2Vec2 adalah kemampuannya untuk bekerja

dengan suara mentah (raw audio) tanpa perlu melakukan langkah pra-pemrosesan
yang rumit. Model ini telah terbukti menghasilkan hasil pengenalan ucapan yang
sangat baik dan telah digunakan dalam berbagai aplikasi seperti sistem transkripsi,
asisten virtual, dan lainnya.
Dengan menggunakan model Wav2Vec2, pengguna dapat mengubah gelombang

suara menjadi teks secara otomatis dan efisien, membuka peluang baru dalam
pemrosesan suara dan aplikasi yang bergantung pada pemahaman ucapan.
II.5.2 Model Whisper dari OpenAI
Whisper adalah sistem pengenalan ucapan otomatis (Automatic Speech

Recognition, ASR) yang dilatih dengan menggunakan 680.000 jam data terawasi
multibahasa dan multitugas yang dikumpulkan dari web. Kami menunjukkan
32
bahwa penggunaan dataset yang besar dan beragam seperti ini menghasilkan
peningkatan ketahanan terhadap aksen, kebisingan latar belakang, dan bahasa
teknis. Selain itu, ini memungkinkan transkripsi dalam berbagai bahasa, serta
terjemahan dari bahasa-bahasa tersebut ke dalam bahasa Inggris. Kami telah
membuka sumber kode model dan proses sebagai dasar untuk membangun
aplikasi yang berguna dan untuk penelitian lebih lanjut dalam pemrosesan ucapan
yang tangguh.
Ilustrasi cara kerja Whisper dapat dilihat pada gambar II.3.
Gambar II.4 Arsitektur Whisper (Radford dkk., 2022)
Arsitektur Whisper adalah pendekatan sederhana end-to-end, yang

diimplementasikan sebagai encoder-decoder Transformer. Penjelasan lebih detail
mengenai Gambar II.3 adalah sebagai berikut.
1. Input menuju Encoder
Audio input dibagi menjadi segmen-segmen 30 detik, diubah menjadi

spectrogram log-Mel, dan kemudian diberikan kepada encoder untuk
dijadikan suatu representasi khusus agar bisa diproses oleh model.
33
2. Output Encoder menuju Decoder
Sebuah decoder dilatih untuk memprediksi teks caption yang sesuai, yang
dicampur dengan token-token khusus yang mengarahkan model tunggal
untuk melakukan tugas-tugas seperti identifikasi bahasa, penanda waktu
pada tingkat frasa, transkripsi ucapan multibahasa, dan terjemahan ucapan
ke bahasa Inggris.
Pendekatan-pendekatan yang sudah ada sering kali menggunakan dataset latihan

audio-teks yang lebih kecil dan lebih dekat pasangannya atau menggunakan
pra-pelatihan audio yang tidak terawasi namun luas. Karena Whisper dilatih
dengan dataset yang besar dan beragam, dan tidak disesuaikan ulang dengan satu
dataset spesifik, maka model ini tidak mengalahkan model-model yang
mengkhususkan diri dalam kinerja LibriSpeech, yang merupakan salah satu
benchmark kompetitif dalam pengenalan ucapan. Namun, ketika kami mengukur
kinerja nol-latih Whisper pada berbagai dataset yang beragam, kami menemukan
bahwa model ini jauh lebih tangguh dan melakukan 50% lebih sedikit kesalahan
daripada model-model tersebut.
Sekitar sepertiga dari dataset audio Whisper adalah non-Bahasa Inggris, dan
model ini secara bergantian diberikan tugas untuk mentranskripsi dalam bahasa
asli atau menerjemahkan ke dalam bahasa Inggris. Kami menemukan bahwa
pendekatan ini sangat efektif dalam mempelajari terjemahan ucapan ke teks, dan
kinerjanya melebihi State-of-the-Art (SOTA) terpantau pada terjemahan CoVoST2
ke bahasa Inggris tanpa latihan.
II.6 Platform Huggingface
Hugging Face adalah sebuah perusahaan dan komunitas yang terkenal dalam
bidang pemrosesan bahasa alami (Natural Language Processing/NLP) dan
pengembangan model bahasa. Mereka dikenal karena kontribusinya dalam
pengembangan perpustakaan (library) pemrosesan bahasa terbuka (open-source)
yang populer, yaitu Transformers.
34
Selain menyediakan perpustakaan Transformers, Hugging Face juga menyediakan
platform bernama "Hugging Face Hub". Platform ini memungkinkan pengguna
untuk berbagi, menemukan, dan mengunduh model bahasa yang telah dilatih
sebelumnya oleh komunitas. Dengan demikian, pengguna dapat dengan mudah
mengakses dan menggunakan model bahasa terkini untuk tugas NLP mereka
tanpa perlu melatih dari awal.
Hugging Face juga mengembangkan alat (tools) dan sumber daya (resources)
lainnya untuk mempermudah pengembangan dan eksplorasi dalam bidang NLP.
Mereka aktif dalam berkontribusi pada komunitas pemrosesan bahasa dan sering
kali mengadakan kompetisi dan tantangan terkait pemrosesan bahasa.
Secara keseluruhan, Hugging Face adalah perusahaan dan komunitas yang

berfokus pada pemrosesan bahasa alami dan menyediakan perpustakaan, platform,
dan alat yang berguna bagi para peneliti, pengembang, dan pengguna yang tertarik
dalam pengembangan model bahasa dan aplikasi NLP.
II.7 Metrik Pengujian Word Error Rate
Word Error Rate (WER) adalah metrik evaluasi yang umum digunakan dalam
bidang pemrosesan bahasa alami (Natural Language Processing, NLP) untuk
mengukur tingkat kesalahan dalam pemrosesan teks. WER mengukur perbedaan
antara teks target yang benar dan teks yang dihasilkan oleh sistem atau model
NLP.
Word Error Rate (WER) merupakan metrik evaluasi ASR yang paling sering
digunakan, yang juga akan digunakan dalam Tugas Akhir ini. WER menghitung
persentase jumlah kata yang salah terhadap seluruh jumlah kata yang diproses,
yang didefinisikan (Errattahi dkk., 2018) sebagai berikut:
(1)
Penjelasan mengenai rumus WER di atas adalah sebagai berikut.

35
1. Substitusi atau substitution (S), yaitu kondisi ketika kata dalam sekuens
kata referensi ditranskripsikan sebagai kata yang berbeda.
2. Penghapusan atau deletion (D), yaitu kondisi ketika kata dalam sekuens
kata referensi terhapus atau tidak terdapat dalam hasil transkripsi.
3. Penyisipan atau insertion (I), yaitu kondisi ketika terdapat kata yang
muncul pada transkripsi yang tidak berkoresponden dengan sekuens kata
referensi.
4. H adalah total kata yang benar.
5. N1 adalah total kata masukan yang dicek.
Semakin rendah nilai WER, semakin baik sistem atau model NLP dalam
menghasilkan teks yang sesuai dengan teks target. WER digunakan secara luas
dalam evaluasi sistem pengenalan suara, sistem transkripsi teks, sistem
penerjemahan mesin, dan aplikasi NLP lainnya.
II.8 Penelitian Terkait

1. Indonesian Automatic Speech Recognition with XLSR-53 (Arisaputra &
Zahra, 2022)
Dalam penelitian kali ini dilakukan pengembangan sistem ASR dengan

menggunakan model pre-trained multibahasa Wav2Vec2-XLSR-53.
XLSR-53 ini sendiri adalah model dengan pengurangan jumlah data latih
bahasa Inggris sehingga tetap mempertahankan tingkat word error rate
secara signifikan yang kompetitif. Total data yang digunakan dalam
penelitian ini mencapai 24 jam, 18 menit, dan 1 detik yang terdiri atas
TITML-IDN selama 14 jam dan 31 menit, Magic Data selama 3 jam 33
menit, serta Common Voice selama 6 jam, 14 menit, dan 1 dettik.
Model memiliki hasil WER dengan data uji common voice sebesar 26%.
2. Fine-tuning Whisper large v2 for Indonesian Language (Wirawan, 2022)
36
Dalam penelitian ini, model pre-trained dari OpenAI yaitu Whisper
Large-V2 di-fine-tuning dengan penggunaan dataset Common Voice 13
berbahasa Indonesia yang terdiri atas audio berdurasi kurang lebih 15 jam.
Pelatihan dilakukan sebanyak 5 kali epochs dan hasil pengujian dengan
menggunakan data uji Common Voice 13 adalah sebesar 6.6% WER.
Berikut merupakan tabel perbandingan hasil pelatihan dari berbagai referensi

yang dibaca oleh penulis.
Tabel II.1 Studi Literatur Pelatihan Model ASR pada Dataset Mozilla Common
Voice
No Judul Model Metode Akurasi WER

Pelatihan
1 Indonesian Automatic Wav2Vec2-X Fine Tuning 26.1%

Speech Recognition LSR-53
with XLSR-53 (2022) (300M)
2 Fine Tuning Whisper Whisper Fine Tuning 6.6%

Large v2 for Large-v2
Indonesian Language (1.5B)
(2022)
Hasil dari studi literatur tersebut, memperkuat motivasi untuk melakukan

pelatihan model ASR yang dikhususkan untuk mengatasi bidang spesifik proses
rekrutmen khususnya pada bidang wawancara karena model ASR berbahasa
Indonesia yang ada baru diuji dengan menggunakan data uji audio berbahasa
Indonesia yang bersifat umum. Selain itu, belum ada penelitian yang melakukan
pelatihan model ASR yang nantinya akan diujikan dengan data uji yang sudah
spesifik pada bidang wawancara rekrutmen pekerjaan.
37
BAB III
ANALISIS MASALAH DAN RANCANGAN SOLUSI MODEL
ALIH SUARA MENJADI TEKS INTERVIEW
SUMMARIZATION SYSTEM
III.1 Analisis Masalah
Bagian analisis masalah pada tugas akhir kali ini akan menggunakan dua buah
poin pertama pada metodologi yang sudah ditentukan yaitu CRISP-DM, yaitu
business understanding dan data understanding.
III.1.1 Business Understanding

Proses rekrutmen ini merupakan proses yang sangat esensial bagi suatu organisasi.
Proses rekrutmen saat ini juga sudah mulai memanfaatkan perkembangan
teknologi dengan tujuan utamanya adalah efisiensi dan efektifitas untuk organisasi
mendapatkan hasil yang cepat dan tepat sasaran. Proses rekrutmen yang sering
menjadi penentuan akhir dari suatu organisasi memilih kandidatnya adalah proses
wawancara. Kemudian pada tahap wawancara juga masih dilakukan secara
manual dan masih belum ada teknologi yang secara signifikan dapat
mempermudah proses ini (Bizer et al., 2005). Tahap wawancara membutuhkan
resource yang mahal baik dalam segi biaya, waktu, dan tenaga. Sumber daya
mahal yang dimaksud adalah pada segi biaya proses wawancara ini memerlukan
biaya infrastruktur untuk keberlangsungan prosesnya seperti biaya untuk
media/tempat pelaksanaan, psikolog/penilai wawancara, dsb. Pada segi waktu
memerlukan waktu yang lama dalam melakukan evaluasi dari suatu wawancara
kandidat yang tentunya memiliki jumlah yang tidak sedikit. Terakhir dalam segi
tenaga ini juga membutuhkan banyak tenaga dalam melakukan proses wawancara
baik saat prosesnya sedang berlangsung maupun saat sudah berakhir pada proses
evaluasi wawancara tersebut.
38
Peran teknologi disini hadir untuk memudahkan proses wawancara tersebut.
Solusi yang ditawarkan dari sisi teknologi adalah mesin otomasi untuk proses
wawancara. Salah satu yang dapat diotomatisasi dalam proses wawancara adalah
melakukan transkripsi isi dari wawancara tersebut. Dalam proses transkripsi isi
dari wawancara memanfaatkan ilmu pengolahan suara khususnya adalah
automatic speech recognition. Terdapat beberapa pendekatan yang memiliki
keunggulan dan kelemahannya masing-masing dalam melakukan automatic
speech recognition. Selain dalam penentuan pendekatan, terdapat juga penentuan
khusus karena data yang dipakai nantinya adalah data dengan bahasa Indonesia
dimana itu menjadi tantangan tersendiri ketika pengembangan solusi. Jadi selain
pemilihan pendekatan secara umum untuk melakukan automatic speech
recognition, diperlukan juga evaluasi performa model yang dipilih untuk
automatic speech recognition berbahasa Indonesia. Pemilihan model yang sesuai
ini diperlukan karena tujuan awal dari adanya transkrip wawancara ini untuk
memudahkan dan menyingkat waktu proses wawancara, sehingga pendekatan
yang menghasilkan hasil yang paling akurat dan cepat yang nantinya akan dipilih.
Berdasarkan masalah yang ada pada proses pembuatan transkrip wawancara ini,
diperlukan solusi yang paling optimal yang nantinya dapat membantu
meringankan dari segi resource sehingga hasil interview yang didapatkan
membutuhkan waktu yang cepat dan hasilnya tetap tepat sasaran.
III.1.2 Data Understanding

Data yang ada pada pengerjaan tugas akhir kali ini ada dua jenis data, yaitu data
Common Voice dan data yang diberikan dari pemilik masalah.
Data Common Voice disini diambil dari Hugging Face. Alasan pemilihan data
Common Voice disini karena data tersebut merupakan data yang sering digunakan
untuk melakukan pelatihan model ASR secara fine-tuning untuk bahasa lain selain
bahasa Inggris (Hugging Face, 2022). Sumber dari data audio Common Voice ini
berasal dari crowdsourcing yang dilakukan oleh Mozilla sejak Januari 2020
39
sampai Maret 2023. Bahasa Indonesia merupakan salah satu bahasa yang tersedia
pada data Common Voice. Durasi data bahasa Indonesia yang ada pada Common
Voice adalah 15 jam secara total dan berformat .mp3 serta memiliki frekuensi 48
kHz. Data Common Voice terdiri atas tiga bagian, yaitu latih, uji, dan validasi.
Dimensi yang dimiliki oleh data Common Voice adalah 11982 baris x 13 kolom
dan berikut adalah contoh data.
{'client_id':
'0a4e7e60acc2a6145fc2589e6abb81e41e430cea0611bd0c919eb1baf328f2545dd908f7a787a
2cf3ff64b4412b7527b4a2dcde5c2d161941246c1c106df91c9',
'path':
'/root/.cache/huggingface/datasets/downloads/extracted/6bb944c690940a5cc6c8e82
c29615d79b6a593736a533875ae720df84349f3f6/id_test_0/common_voice_id_23033570.m
p3',
'audio': {'path':
'/root/.cache/huggingface/datasets/downloads/extracted/6bb944c690940a5cc6c8e82
c29615d79b6a593736a533875ae720df84349f3f6/id_test_0/common_voice_id_23033570.m
p3',
'array': array([ 0.00000000e+00, -1.62967187e-13, -4.52061619e-14, ...,
-4.09781933e-05, -2.77457730e-05, -3.40642328e-06]),
'sampling_rate': 48000},
'sentence': 'Maha Suci Allah.',
'up_votes': 2,
'down_votes': 0,
'age': 'teens',
'gender': 'male',
'accent': '',
'locale': 'id',
'segment': '',
'variant': ''}
Gambar III.1 Data Common Voice
Penjelasan mengenai atribut dari data Common Voice adalah sebagai berikut
(Mozilla, 2023)
1. client_id: id suara klien pada audio

2. sentence: transkrip audio
3. up_votes: total up vote dari reviewer
4. down_votes: total down vote dari reviewer
5. age: umur klien
6. gender: kelamin klien
40
7. accent: aksen klien
8. locale: bahasa ibu klien
9. segment: tidak ada penjelasan dan biasanya kosong
10. variant: tidak ada penjelasan
11. path: lokasi file audio
12. audio: rekaman yang di-decode dalam bentuk array 1 dimensi
13. sampling_rate: frekuensi sampling dari audio dalam Hertz
Berikut tipe data dari masing-masing kolom.
Gambar III.2 Tipe Data dari Kolom Dataset
Fitur-fitur yang diperlukan ada pada data ini adalah client_id, path, audio,
sentences, dan locale. Lainnya adalah opsional (Mozilla, 2023) tetapi, yang
diperlukan pada proses modeling nantinya hanya sebatas path, audio, dan
sentences.
Durasi per-data nya tidak dicantumkan sehingga informasi yang bisa didapatkan
adalah total durasi data keseluruhan dengan cara perhitungan manual yaitu
41
menggunakan formula panjang array dari audio dibagi dengan frekuensi sampling.
Berikut adalah potongan kode dari penghitungan total durasi.
for i in range(len(df_indonesian)):
df_indonesian['length'][i] = len(df_indonesian['array'][i])/48000
Gambar III.3 Kalkulasi Durasi Klip Audio
Pemahaman data Common Voice selanjutnya adalah melakukan pengecekan

mengenai persebaran panjang audio, kalimat, dan kata dari rekaman yang ada
pada data.
Setelah dilakukan pengecekan, akan diberikan visualisasi dari masing-masing

komponen yang dicek. Berikut adalah visualisasi mengenai panjang audio yang
ada pada data.
Gambar III.4 Histogram dan Boxplot untuk Durasi
Berdasarkan Gambar III.4 didapatkan hasil bahwa audio pada dataset Common
Voice berdurasi pendek. Kemudian durasi paling banyak pada dataset Common
Voice sendiri ada pada range 2.5 detik sampai 5 detik.
42
Setelah melakukan visualisasi pengecekan komponen durasi akan diberikan
visualisasi mengenai komponen transkrip kata per audio. Berikut adalah
visualisasi mengenai banyak kata.
Gambar III.5 Histogram dan Boxplot untuk Kata
Berdasarkan Gambar III.5 didapatkan hasil bahwa jumlah transkrip kata pada tiap
audio dataset Common Voice berjumlah sedikit karena durasi dari audio yang
berdurasi pendek. Kemudian jumlah transkrip kata pada tiap audio dataset
Common Voice paling banyak berada pada range 5 sampai 10 kata.
Setelah diberikan visualisasi mengenai transkrip kata per audio, kemudian akan
diberikan visualisasi mengenai berapa banyak karakter yang muncul pada setiap
audio. Kegiatan ini bertujuan untuk melakukan pengecekan lebih lanjut kualitas
dari data Common Voice yang ada. Berikut adalah visualisasi mengenai banyak
karakter.
43
Gambar III.6 Histogram dan Boxplot untuk Karakter
Berdasarkan Gambar III.6 karakter yang muncul pada setiap audio tidak banyak
karena sesuai dengan total durasi yang pendek dari setiap audio. Jumlah karakter
audio dataset Common Voice paling banyak terdapat pada range 30 sampai 60
karakter.
Setelah melakukan pengecekan dataset Common Voice, dilakukan pengecekan

detail data yang diberikan oleh pemilik masalah. Data yang diberikan dari pemilik
masalah berupa video wawancara yang dimiliki oleh pemilik masalah yang
spesifikasinya dapat dilihat pada tabel berikut.
Tabel III.1 Spesifikasi Dataset Pemilik Masalah
Atribut Keterangan
Jumlah 53 video wawancara
Durasi Min: 11 Menit

Max: 90 Menit
Rata-rata: 37 Menit
Isi Video Sesi wawancara secara daring dengan

kondisi audio relatif banyak noise.
44
Sesuai dengan isi dari tabel yang sudah tertera, dataset yang diberikan oleh
pemilik masalah memang langsung mengarah pada bidang spesifik yaitu
wawancara pekerjaan, tetapi kondisi audio yang relatif banyak noise
menyebabkan data ini nantinya akan dimanfaatkan sebagai data uji saja dengan
penambahan transkrip audio yang ada secara manual.
III.2 Analisis Solusi

Pada bagian ini akan dibahas terkait pembuatan solusi menggunakan sisa poin
yang ada pada CRISP-DM, yaitu data preparation, modeling, dan evaluation.
Namun, sebelum itu terdapat improvisasi dalam penentuan pengembangan solusi
yaitu menentukan arsitektur dan model yang ingin sudah ditentukan pada awal
pengerjaan tugas akhir serta pemilihan model yang lebih spesifik antara model
Wav2Vec2 atau Whisper berdasarkan studi literatur yang dilakukan serta
pengaitan dengan masalah yang ada pada tugas akhir kali ini.
III.2.1 Penentuan Arsitektur dan Model

Permasalahan wawancara dapat diselesaikan dengan melakukan transkrip dari isi
wawancara tersebut.
Pendekatan umum yang akan dilakukan adalah dengan menggunakan pendekatan

pembelajaran mesin khususnya pada bidang pemrosesan suara dimana nantinya
kita akan mengolah ucapan yang ada dalam proses wawancara menjadi suatu teks
atau biasa dikenal dengan Automatic Speech Recognition.
Terdapat beberapa pendekatan untuk implementasi Automatic Speech Recognition

itu sendiri dan yang dipilih adalah pendekatan dengan arsitektur Transformer
dengan model yang dibandingkan adalah model dari FAIR yaitu Wav2Vec2 dan
model dari OpenAI yaitu Whisper. Perbandingan kedua model tersebut diacu
melalui performa masing-masing model yang diukur dengan menggunakan metrik
Word Error Rate (WER).
45
Pemilihan arsitektur Transformer sendiri karena ASR dengan menggunakan
arsitektur Transformer sendiri dinilai efektif dalam menangani kasus ASR ini.
Transformer sendiri adalah arsitektur jaringan saraf yang dikembangkan oleh
Vaswani et al. (2017) yang telah menjadi landasan untuk banyak aplikasi NLP,
yang terbaru ini bahkan sudah termasuk aplikasi ASR. Keunggulan dari arsitektur
Transformer sendiri memperhatikan mengenai konteks global dalam urutan kata
yang diberikan dan mengatasi masalah jarak panjang dalam urutan kata. Oleh
karena itu, model nantinya memungkinkan untuk mengenali pola dan dependensi
yang kompleks dalam ucapan dan menghasilkan hasil yang lebih akurat. Hal ini
sesuai dengan tujuan yang diinginkan pada pengerjaan tugas akhir kali ini untuk
mendapatkan hasil transkrip wawancara yang tepat.
Kemudian untuk menentukan model mana yang lebih baik untuk digunakan akan
dilakukan beberapa tahap implementasi yaitu, akuisisi data dan pra-pemrosesan
data, pembangunan dan pelatihan model, pengujian dengan WER, dan
deployment. Model nantinya akan dibandingkan pada proses pengujian
berdasarkan WER yang masing-masing model dapatkan karena untuk mengukur
performansi dari suatu model pada tugas akhir kali ini digunakan metrik WER.
Setelah mendapatkan model yang terpilih berdasarkan perbandingan WER yang
sudah dilakukan, akan dilakukan deployment untuk model tersebut dan dibuatkan
API terkait untuk kepentingan penggunaan model yang sudah dibangun agar
terintegrasi dengan komponen lainnya.
III.2.2 Data Preparation
Setelah memahami tahap pertama pada metodologi CRISP-DM yaitu pemahaman

lebih lanjut mengenai masalah dan data yang akan digunakan dalam proses
pengembangan, tahap awal yang dilakukan adalah persiapan data yang akan
digunakan. Persiapan data disini ditujukan agak dapat digunakan dalam pelatihan
model ASR nantinya. Terdapat dua dataset yang digunakan yaitu dataset yang
didapatkan dari open-source berupa Common Voice dari Hugging Face dan
46
dataset dari pemilik masalah. Tahapan yang dilakukan pada data Common Voice
adalah sebagai berikut.
1. Penggabungan data latih dan data validasi untuk data latih
Hal ini dilakukan agar data latih yang semakin banyak. Sisa data uji tentu
untuk melakukan evaluasi model yang di fine-tune dengan data latih ini.
2. Ekstraksi fitur atau kolom yang digunakan
Fitur atau kolom yang dibutuhkan hanyalah fitur audio dan transkrip dari
audio tersebut. Kolom path dibutuhkan untuk pengaksesan data tersebut.
3. Resampling audio dari 48 kHz menjadi 16 kHz
Seperti yang dijelaskan pada pemahaman data, Common Voice memiliki

frekuensi sampling 48 kHz. Namun, model yang akan digunakan nantinya
memerlukan input audio dengan frekuensi sampling 16 kHz.
Tahapan yang dilakukan pada data pemilik masalah adalah sebagai berikut.
1. Konversi format .mp4 menjadi .mp3 (Video menjadi Audio)
Bertujuan untuk memperkecil ukuran dari suatu file yang akan diuji
sehingga mempercepat dalam proses uploading nantinya.
2. Pemotongan durasi data
Data yang nantinya akan diterima pada kasus nyatanya akan berdurasi
sekitar 3 menit dan paling lama berdurasi 7 menit. Jadi durasi data yang
ada akan dilakukan pemotongan menjadi data berdurasi 5 menit, 6 menit,
dan 7 menit. Masing-masing data dengan durasi yang telah ditentukan
berjumlah 10 data sehingga total data yang didapatkan adalah 30 data.
3. Transkripsi audio secara manual
Data dilakukan transkripsi secara manual karena belum memiliki atribut

transkripsi.
47
III.2.3 Modeling
Setelah proses pemrosesan data dan sudah mendapatkan data yang siap dipakai,
langkah berikutnya adalah melakukan pelatihan model dengan data yang
disiapkan. Dalam pengerjaan tugas akhir kali ini akan dilatih model yang sudah
ditentukan dengan menggunakan metode fine-tuning dengan data yang sudah
disiapkan, tetapi data yang digunakan untuk data latih adalah data gabungan dari
data latih dan data validasi Common Voice. Langkah-langkah yang ada pada tahap
modeling adalah sebagai berikut.
1. Instalasi masing-masing Processor model yang dipilih
Instalasi disini bertujuan untuk menyiapkan processor yang akan

digunakan oleh model. Processor disini berfungsi sebagai pemrosesan
input dan output model. Atribut dari processor sendiri terdiri atas feature
extraction dan tokenzier yang mana feature extraction memiliki fungsi
untuk mengubah sinyal suara menjadi format input model dan tokenizer
memiliki fungsi untuk memproses output yang akan dihasilkan model
menjadi format teks yang bisa dibaca.
2. Mempersiapkan model yang akan dilatih
Model yang akan dilatih terdiri atas Wav2Vec2-XLSR-53, Whisper-small,

dan Whisper-large yang mana spesifikasi dari masing-masing model dapat
dilihat pada tabel.
Tabel III.2 Spesifikasi Model yang Digunakan
No Model Jumlah Ukuran

Parameter
1 Wav2Vec2-XLSR-53 300 juta 1.27 GB
2 Whisper-small 244 juta 967 MB
3 Whisper-large 1.550 juta 6.17 GB
48
3. Mempersiapkan hyperparameter dan memulai pelatihan
Hyperparameter yang ditentukan dalam pelatihan kali ini melihat

kebelakang melalui penelitian terkait dan dilakukan pencampuran
kombinasi hyperparameter sampai ditemukan hasil yang paling bagus.
III.2.4 Evaluation
Evaluasi pada pengerjaan tugas akhir kali ini akan dilakukan evaluasi umum
model-model yang ada yang nantinya akan dieliminasi untuk dilakukan evaluasi
yang mengerucut pada bidang spesifik yang sudah ditentukan. Penentuan suatu
model bagus atau tidak didasari oleh ketepatan yang ditentukan oleh WER dan
kecepatan yang ditentukan dari proses model melakukan transkripsi.
III.2.5 Deployment
Proses terakhir ini diperlukan untuk pengaplikasian model. Karena tujuan awal
dari keseluruhan proyek adalah membuat aplikasi berbasis web dan model ini
merupakan salah satu alat dari aplikasi tersebut maka diperlukan deployment agar
model ini dapat terintegrasi dan berkomunikasi dengan komponen aplikasi web
yang sudah dirancang. Komunikasi model dengan aplikasi web menggunakan
API.
Berikut adalah perancangan API model yang sudah dikembangkan.
1. Deployment Model dengan Gradio.
Deployment dengan kakas Gradio disini dilakukan karena kakas tersebut

gratis dan open-source serta mudah untuk di implementasi.
2. Pembuatan endpoint dengan Google Cloud Function
Penggunaan Google Cloud Function disini ditimbang dari segi skalabilitas

dan pemanfaatan free trial Google Cloud Platform yang didapatkan.
49
III.3 Deskripsi Umum Solusi
Berdasarkan analisis solusi yang dilakukan, pendekatan yang dipilih untuk
persoalan transkrip wawancara adalah pendekatan dengan pengembangan
menggunakan basis Transformer serta pencarian dataset melalui sumber-sumber
open source. Alasan dari pemilihan pendekatan tersebut karena Transformer itu
open source, efisien untuk diimplementasikan, dan mudah diintegrasi pada NLP
task. Untuk pengumpulan dataset sendiri mencari melalui sumber open source
melalui huggingface akan lebih mempersingkat waktu dan effort yang dikeluarkan
daripada membuat dataset itu sendiri.
Solusi dari sistem yang dipilih memiliki alur kerja sistem yang tergambar pada
Gambar III.1.
Gambar III.7 Diagram Kerja Sistem
50
BAB IV
EKSPERIMEN DAN EVALUASI HASIL
Pada bab ini, akan dijelaskan mengenai eksperimen yang dilakukan merujuk pada
rancangan solusi yang telah dijelaskan pada Bab III beserta evaluasi hasil dari
setiap eksperimen yang ada.
IV.1 Lingkungan Implementasi
Pada penelitian ini, Bahasa Python menjadi dasar dalam melakukan implementasi.
implementasi sendiri nantinya akan terdiri atas data preparation, modeling,
evaluation, dan deployment. Penulis juga memanfaatkan beberapa perpustakaan
(library) yang bermanfaat dalam mendukung proses implementasi pada setiap
tahap. Rincian daftar perpustakaan yang digunakan pada tiap tahap dapat
ditemukan di Tabel IV.1.
Tabel IV.1 Penggunaan Library
No Tahapan Library
1. Data Preparation Python, HuggingFace (Datasets &

Pretrained Model)
2 Modeling Transformers, Torchaudio, Google Colab
3 Evaluation jiwer
4 Deployment Gradio, Google Cloud Function
Proses pengembangan dan pelatihan model dilakukan di Google Colab Virtual

Machine memanfaatkan free trial Google Cloud Platform. Server ini diperlukan
untuk mempercepat proses pelatihan dengan menggunakan GPU, serta
memberikan spesifikasi memori RAM yang cukup untuk proses proses mengingat
sumber daya yang besar yang diperlukan untuk melatih model pembelajaran
51
mesin. Spesifikasi server Google Cloud Platform yang digunakan dalam
penelitian ini dapat ditemukan di Tabel IV.2.
Tabel IV.2 Spesifikasi Server Google Colab Virtual Machine GCP
Komponen Spesifikasi
Processor Intel® Xeon® CPU E5-2698 v4

@2.20GHz
GPU NVIDIA T4 GPU
RAM N1-High Memory-4 (4 vCPU, 26 GB

Memory)
IV.2 Eksperimen
Untuk eksperimen pengembangan modul alih suara menjadi teks pada tugas akhir
kali ini akan dilakukan dengan cara melakukan implementasi pada model yang
sudah dipilih dengan tahapan implementasi dimulai dengan data preparation,
modeling. Kemudian akan dilakukan pengujian kepada masing-masing model
yang sudah di implementasi untuk menentukan model mana yang paling baik.
Terakhir ketika sudah menemukan model yang paling baik akan dilakukan
deployment untuk integrasi dengan aplikasi.
IV.2.1 Tujuan Eksperimen
Eksperimen disini memiliki tujuan utama yaitu untuk membuktikan hasil yang
didapatkan berdasarkan studi literatur dalam pengerjaan tugas akhir kali ini serta
menentukan model alih suara menjadi teks mana yang paling tepat untuk aplikasi
transkrip wawancara. Tujuan lain dari eksperimen pada pengerjaan tugas akhir
kali ini adalah untuk mencari temuan-temuan baru yang tidak ditemukan dalam
pelaksanaan studi literatur. Kemudian tujuan akhir dalam eksperimen kali ini
adalah untuk mendapatkan kesimpulan mengenai apa saja yang perlu diperhatikan
dalam melaksanakan pembangunan model alih suara menjadi teks dengan konteks
52
bidang spesifik yaitu wawancara pekerjaan dibandingkan dengan percakapan
umum.
IV.2.2 Skenario Eksperimen
Terdapat beberapa skenario eksperimen untuk memenuhi tujuan yang sudah

dituliskan pada Bab sebelumnya. Skenario tersebut dibagi menjadi skenario
berdasarkan model yang sedang diimplementasikan sehingga akan terdapat tiga
skenario utama yaitu skenario eksperimen model Wav2Vec2-XLSR-53, model
Whisper-small, dan model Whisper-large. Setelah skenario eksperimen bagian
implementasi tiap model akan dilakukan pengujian model terbaik melalui
skenario utama dengan cara diujikan pada data uji Common Voice terlebih dahulu
dan kemudian dilakukan pengujian kembali menggunakan data uji yang diberikan
oleh pemilik masalah. Seluruh proses pengujian melibatkan model dasarnya untuk
kepentingan pengecekan apakah model tersebut mengalam over-fitting atau tidak.
Skenario implementasi sekaligus pengujian disini bertujuan untuk memenuhi
tujuan utama eksperimen. Kemudian melalui skenario ini juga dapat menentukan
apa-apa saja yang perlu diperhatikan dalam proses pembangunan model.
IV.2.2.1 Skenario Eksperimen Wav2Vec2-XLSR-53
Untuk skenario eksperimen yang ada pada model Wav2Vec2-XLSR-53 akan

dilakukan tahap implementasi model. Tahapan implementasi sendiri terbagi
menjadi beberapa tahapan yaitu data preparation dan modeling.
Tahapan implementasi sendiri disini adalah tahapan dalam melakukan fine-tuning

model dengan menggunakan dataset data latih dan data uji dari Common Voice.
Berikut adalah penjelasan detail mengenai tahapan yang ada pada tahapan
implementasi yaitu tahapan data preparation dan modeling.
53
1. Data Preparation
Implementasi pertama pada proses ini adalah penggabungan data latih dan
data validasi dataset Common Voice. Berikut adalah cuplikan kode dalam
penggabungan data.
from datasets import load_dataset, DatasetDict
common_voice = DatasetDict()
common_voice["train"] = load_dataset(dataset_name, language_abbr,

split="train+validation", use_auth_token=True)
common_voice["test"] = load_dataset(dataset_name, language_abbr, split="test",
use_auth_token=True)
print(common_voice)
Gambar IV.1 Impor Dataset Skenario 1
Algoritma di atas juga melakukan pemisahan antara data latih dan data uji.
Setelah melakukan penggabungan dan pemisahan data latih dan data uji,
dilakukan pengecekan mengenai detail data yang akan digunakan. Berikut
adalah cuplikan kode pengecekan detail data.
DatasetDict({
train: Dataset({
features: ['client_id', 'path', 'audio', 'sentence', 'up_votes',
'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
num_rows: 8333
})
test: Dataset({
num_rows: 3649
})
})
Gambar IV.2 Dataset Latih dan Dataset Uji Skenario 1
Setelah mengetahui detail dari suatu data yang ada, dilakukan pemilihan
fitur yang akan digunakan untuk pelatihan model. Fitur yang akan
digunakan adalah fitur audio dan sentence sebagai file audio dan transkrip
dari file audio tersebut. Berikut adalah cuplikan kode pemilihan fitur.
54
common_voice = common_voice.remove_columns(
["accent", "age", "client_id", "down_votes", "gender", "locale", "path",
"segment", "up_votes", "variant"]
)
print(common_voice)
Gambar IV.3 Penghapus Kolom yang Tidak Dipakai Skenario 1
Langkah terakhir pada persiapan data adalah melakukan resampling audio

menjadi sampling yang sesuai dengan model yaitu dari 48 kHz menjadi 16
kHz serta mapping data ke model. Berikut adalah cuplikan kode untuk
resampling audio.
from datasets import Audio

common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))
Gambar IV.4 Resampler Audio Skenario 1
Setelah dilakukan resampling, dilakukan pengecekan ulang mengenai

detail dari data yang digunakan pada bagian sampling_rate. Berikut
cuplikan kode untuk pengecekan ulang sampling_rate.
{'audio': {'path':
'/root/.cache/huggingface/datasets/downloads/extracted/a300851d5f8f83446e051857
7a5c0e445b9879874d9eb04a87faf332819dd463/common_voice_id_25361388.mp3',
'array': array([-2.32830644e-09, 1.86264515e-09, -9.31322575e-10, ...,
-2.64349492e-05, -7.05649245e-06, 2.22347239e-06]), 'sampling_rate':
16000}, 'sentence': 'Saya mendengarkan cerita membosankan dari teman saya.'}
Gambar IV.5 Audio Setelah Resampling Skenario 1
2. Modeling
Proses modeling yang akan dilakukan yaitu menggunakan metode

fine-tuning model dengan dataset yang sudah disiapkan pada preparasi
data di awal. Pertama-tama melakukan import processor dari model yang
ingin dilatih. Berikut adalah cuplikan kode import processor model.
55
Gambar IV.6 Impor Wav2Vec2Processor
Kemudian dilakukan loading pre-trained model yang akan di-fine-tuning

dengan cara import modul yang sesuai dengan model yang akan
digunakan. Untuk model XLSR-53 perlu melakukan import modul
Wav2Vec2ForCTC. Berikut adalah cuplikan kode untuk load model.
Gambar IV.7 Load Model Wav2Vec2-XLSR-53
Terakhir setelah melakukan import model akan dilakukan training untuk

melakukan fine-tuning pada model tersebut dengan mengisi
hyperparameter yang dibutuhkan untuk training tersebut. Penentuan
hyperparameter yang digunakan berdasarkan hasil penelusuran melalui
penelitian terkait yang sudah pernah dilaksanakan.
56
Berikut adalah cuplikan kode ketika ingin melengkapi hyperparameter
yang ada serta melakukan training.
Gambar IV.8 Kode Training Wav2Vec2-XLSR-53
57
IV.2.2.2 Skenario Eksperimen Whisper-small dan Whisper-large
Untuk skenario eksperimen yang ada pada model Whisper-small dan

Whisper-large akan dilakukan tahap implementasi model. Tahapan implementasi
sendiri terbagi menjadi beberapa tahapan yaitu data preparation dan modeling.
Implementasi kedua model memiliki cara yang sama, hanya saja terdapat
perbedaan pada bagian variabel nama model.
Tahapan implementasi sendiri disini adalah tahapan dalam melakukan fine-tuning

model dengan menggunakan dataset data latih dan data uji dari Common Voice.
Berikut adalah penjelasan detail mengenai tahapan yang ada pada tahapan
implementasi yaitu tahapan data preparation dan modeling.
1. Data Preparation
Implementasi pertama pada proses ini adalah penggabungan data latih dan
data validasi dataset Common Voice. Berikut adalah cuplikan kode dalam
penggabungan data.
from datasets import load_dataset, DatasetDict
common_voice = DatasetDict()
common_voice["train"] = load_dataset(dataset_name, language_abbr,

split="train+validation", use_auth_token=True)
common_voice["test"] = load_dataset(dataset_name, language_abbr, split="test",
use_auth_token=True)
print(common_voice)
Gambar IV.9 Impor Dataset Skenario 2
Algoritma di atas juga melakukan pemisahan antara data latih dan data uji.
Setelah melakukan penggabungan dan pemisahan data latih dan data uji,
dilakukan pengecekan mengenai detail data yang akan digunakan. Berikut
adalah cuplikan kode pengecekan detail data.
58
DatasetDict({
train: Dataset({
num_rows: 8333
})
test: Dataset({
num_rows: 3649
})
})
Gambar IV.10 Dataset Latih dan Dataset Uji Skenario 2
Setelah mengetahui detail dari suatu data yang ada, dilakukan pemilihan
fitur yang akan digunakan untuk pelatihan model. Fitur yang akan
digunakan adalah fitur audio dan sentence sebagai file audio dan transkrip
dari file audio tersebut. Berikut adalah cuplikan kode pemilihan fitur.
common_voice = common_voice.remove_columns(
["accent", "age", "client_id", "down_votes", "gender", "locale", "path",
"segment", "up_votes", "variant"]
)
print(common_voice)
Gambar IV.11 Penghapus Kolom Skenario 2
Langkah terakhir pada persiapan data adalah melakukan resampling audio

menjadi sampling yang sesuai dengan model yaitu dari 48 kHz menjadi 16
kHz serta mapping data ke model. Berikut adalah cuplikan kode untuk
resampling audio.
from datasets import Audio

common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))
Gambar IV.12 Resampler Audio
Setelah dilakukan resampling, dilakukan pengecekan ulang mengenai

detail dari data yang digunakan pada bagian sampling_rate. Berikut
cuplikan kode untuk pengecekan ulang sampling_rate.
59
{'audio': {'path':
'/root/.cache/huggingface/datasets/downloads/extracted/a300851d5f8f83446e051857
7a5c0e445b9879874d9eb04a87faf332819dd463/common_voice_id_25361388.mp3',
'array': array([-2.32830644e-09, 1.86264515e-09, -9.31322575e-10, ...,
-2.64349492e-05, -7.05649245e-06, 2.22347239e-06]), 'sampling_rate':
16000}, 'sentence': 'Saya mendengarkan cerita membosankan dari teman saya.'}
Gambar IV.13 Audio Setelah Resampling
2. Modeling
Proses modeling yang akan dilakukan yaitu menggunakan metode

fine-tuning model dengan dataset yang sudah disiapkan pada preparasi
data di awal. Pertama-tama melakukan import processor dari model yang
ingin dilatih. Berikut adalah cuplikan kode import processor model.
from transformers import WhisperProcessor
processor = WhisperProcessor.from_pretrained(model_name_or_path,
language=language, task=task)
Gambar IV.14 Impor WhisperProcessor
Kemudian dilakukan loading pre-trained model yang akan di-fine-tuning

dengan cara import modul yang sesuai dengan model yang akan
digunakan. Untuk model Whisper perlu melakukan import modul
WhisperForConditionalGeneration. Berikut adalah cuplikan kode untuk
load model.
from transformers import WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained(model_name_or_path)
Gambar IV.15 Load Model Whisper
Terakhir setelah melakukan import model akan dilakukan training untuk

melakukan fine-tuning pada model tersebut dengan mengisi parameter
yang dibutuhkan untuk training tersebut. Berikut adalah cuplikan kode
ketika ingin melakukan training.
60
Gambar IV.16 Kode Training Whisper
IV.2.2.3 Skenario Pengujian Tiap Eksperimen
Skenario pengujian yang digunakan untuk mengukur performa dari

masing-masing model menggunakan metrik Word Error Rate dan waktu proses
pada server dengan menggunakan dataset umum dan dataset yang memiliki
bidang spesifik yaitu bidang wawancara pekerjaan. Pada tahap pertama, pengujian
dilakukan dengan menggunakan dataset umum terlebih dahulu seperti skenario
implementasi yang ada dan hanya memperhatikan nilai dari Word Error Rate serta
waktu training yang ada. Alur pengujian tahap pertama dapat dilihat pada Gambar
IV.17.
61
Gambar IV.17 Alur Pengujian dengan Data Uji dar Common Voice
Pada tahap kedua, berdasarkan hasil pengujian dengan tahap satu, akan dipilih
empat model yang akan diuji lebih lanjut dengan data uji yang diberikan oleh
pemilik masalah karena tujuan dari penelitian kali ini mencari model yang tepat
untuk digunakan dalam melakukan transkripsi wawancara pekerjaan. Alasan
diadakannya skenario pengujian tambahan dengan data uji berasal dari bidang
yang spesifik karena percakapan yang ada pada wawancara relatif lebih formal
dibandingkan dengan audio umum berdasarkan hasil pengamatan dari data yang
diberikan oleh pemilik masalah dan data Common Voice. Pemilihan model yang
akan digunakan berdasarkan WER yang dihasilkan dan waktu proses pada server
untuk memastikan model yang dipilih tepat dan cepat. Audio yang digunakan
adalah audio wawancara dengan durasi bervariasi dari 5 sampai 7 menit. Proses
pengujian dengan data audio dapat dilihat pada Gambar.
Gambar IV.18 Alur Pengujian dengan Data Uji dari Pemilik Masalah
Pengujian tahap dua ini ditujukan untuk mendapatkan temuan-temuan baru yang
tidak ditemukan dalam pelaksanaan studi literatur serta mendapatkan apa-apa saja
yang perlu diperhatikan dalam proses pembangunan model.
IV.2.3 Hasil dan Evaluasi
IV.2.3.1 Hasil Pengujian
Setelah melakukan skenario eksperimen yang ada serta melakukan skenario

pengujian yang sudah ditentukan, terdapat hasil pengujian pada tahap satu
pengujian yaitu pengujian dengan data uji menggunakan data Common Voice
62
dengan komponen yang diberikan adalah waktu training dan akurasi berupa
WER.
Tabel IV.3 Hasil Pengujian Model dengan data uji Common Voice
No Model Waktu Training WER
1. XLSR-large-Wav2Vec2 - 42.4%
(baseline)
2. XLSR-large-Wav2Vec2 19767 detik 19.3%

(Skenario 1)
3. Whisper-large (baseline) - 10.6%
4. Whisper-large (Skenario 2) 92590 detik 6.6%
5. Whisper-small (baseline) - 18.4%
6. Whisper-small (Skenario 2) 37603 detik 13.11%
Kemudian sesuai dengan skenario pengujian, akan dilanjutkan pengujian tahap

kedua dengan alasan pemilihan empat model terpilih adalah berdasarkan dari
WER. Selain dilihat dari WER yang dimiliki juga memasukkan satu model
Wav2Vec2 untuk nantinya dibandingkan dengan Whisper untuk kasus pengujian
data uji yang mengarah pada bidang spesifik.
Tabel IV.4 Hasil Pengujian Model Terpilih dengan Data Uji Wawancara
No Model Waktu Proses WER

(Rerata)
1. XLSR-large-Wav2Vec2 (Skenario 1) 13 menit 20 detik 22.2%
2. Whisper-large (Skenario 2) 6 menit 43 detik 11.1%
3. Whisper-large (baseline) 5 menit 25 detik 10.9%
4. Whisper-small (Skenario 2) 3 menit 10 detik 20.3%
63
Selain hasil dari eksperimen, didapatkan juga suatu penemuan berupa
mempersiapkan virtual machine seperti yang sudah dituliskan pada Tabel IV.2.
Hal ini ditujukan demi kelancaran eksperimen pada saat melakukan modeling
khususnya pada saat melakukan training model yang sedang di-fine-tuning.
IV.2.3.2 Evaluasi Hasil Pengujian
Penelitian kali ini menggunakan metrik utama WER dan waktu proses karena
tujuan awal dari penelitian kali ini adalah menentukan model yang tepat dan cepat
dalam hal melakukan transkripsi suara wawancara (bidang yang spesifik). Word
Error Rate disini berperan sebagai parameter penentu seberapa tepat model dan
waktu proses disini berperan sebagai parameter penentu seberapa cepat model
melakukan transkripsi. Berdasarkan hasil evaluasi masing-masing model yang
terdapat pada Tabel IV.3 dapat disimpulkan bahwa model Whisper-large baseline
memiliki performa yang paling baik dengan pertimbangan kedua metrik yang
digunakan.
Hasil yang diperoleh oleh setiap model sesuai dengan asumsi awal bahwa model
Whisper lebih tepat digunakan daripada model Wav2Vec2. Whisper sendiri juga
menangkap pungtuasi dan kapitalisasi kalimat sedangkan Wav2Vec2 hanya
sekedar memberikan transkripsi kata saja tanpa adanya pungtuasi dan kapitalisasi
kalimat. Whisper dilatih dalam mode supervised menggunakan korpus yang
sangat besar yang terdiri dari 680.000 jam data ucapan multibahasa yang diambil
dari web (Wav2Vec2 hanya 60.000 jam data ucapan dari LibriVox). OpenAI
mengacu pada pelatihan ini sebagai "weakly supervised" karena label tidak
diverifikasi oleh manusia dan oleh karena itu mungkin mengandung noise.
Sumber dan karakteristik domain dari data pelatihan ini tidak diketahui. Meskipun
demikian, jelas bahwa korpus pelatihan Whisper jauh melampaui korpus pelatihan
model Wav2Vec2 baik dalam skala maupun keragaman. Hal ini membuat Whisper
lebih unggul daripada Wav2Vec2. Kemudian diantara tipe model Whisper yang
ada ditemukan Whisper-large baseline menunjukkan hasil yang lebih baik ketika
64
diujikan kepada data uji dari pemilik masalah dibandingkan dengan model
lainnya. Hal ini bisa terjadi karena dataset latih Common Voice yang digunakan
untuk fine-tuning membuat model tersebut menjadi over fitting. Jadi sebagai
simpulan model yang digunakan nantinya adalah model Whisper-large baseline
karena menunjukkan hasil yang akurat dan relatif cepat dibandingkan dengan
model-model lainnya.
IV.2.4 Kesimpulan Eksperimen
Dalam eksperimen ini dipilih model Whisper-large karena memiliki akurasi paling
baik dengan waktu proses yang cepat. Whisper-large sendiri menjadi model yang
digunakan dan dilakukan proses deployment untuk integrasi dengan aplikasi
utama. Proses deployment disini memanfaatkan Google Cloud Function untuk
menjadi API agar bisa diakses oleh Backend serta memanfaatkan free trial dari
GCP dan mempelajari bagaimana cara membuat script Google Cloud Function.
Kemudian untuk melakukan deployment model itu sendiri memanfaatkan Gradio
karena file model yang sangat besar (6.17 GB) diputuskan untuk melakukan
deployment via Gradio yang nantinya mendapatkan link publik deployment yang
akan di input pada script Google Cloud Function. Inputan yang diterima oleh
model yang sudah di deploy pada Gradio berupa link publik audio.
65
BAB V
KESIMPULAN DAN SARAN
V.1 Kesimpulan
Setelah melakukan penelitian terhadap pembangunan model alih suara menjadi

teks pada aplikasi wawancara pekerjaan berbasis pembelajaran mesin, dapat
diambil kesimpulan sebagai berikut.
1. Model alih suara menjadi teks yang tepat antara Wav2Vec2 dan Whisper
adalah model Whisper dan lebih tepatnya model Whisper-large.
2. Whisper-large sebagai model yang dipilih memiliki kinerja berupa tingkat
akurasi dengan metrik WER 10.9% dengan waktu proses rata-rata 5 menit
25 detik untuk audio berdurasi 5-7 menit.
3. Parameter yang digunakan dalam pembuatan model pre-trained
berpengaruh dalam kinerja model untuk menjadi lebih akurat seperti
model Whisper-large yang memiliki parameter 1.550 juta berbanding
dengan Wav2Vec2-XLSR-53 yang memiliki hanya 300 juta parameter.
4. Transkripsi audio pada dataset memang diperlukan agar model pre-trained
lebih mendapatkan akurasi yang lebih baik. Sesuai dengan model
Whisper-large yang dilatih dengan cara weakly supervised memiliki
akurasi yang lebih baik daripada Wav2Vec2-XLSR-53 yang dilatih dengan
cara semi-supervised.
5. Suatu kualitas dataset yang digunakan sebagai data latih sangat
berpengaruh kepada kinerja akurasi suatu model alih suara menjadi teks.
Dataset yang buruk dapat menyebabkan over-fitting model terhadap
dataset tersebut seperti dataset audio Common Voice.
66
V.2 Saran
Dalam melakukan proses penelitian pada pembangunan model alih suara menjadi
teks pada aplikasi wawancara pekerjaan berbasis pembelajaran mesin, terdapat
beberapa saran yang dapat digunakan pada pengembangan selanjutnya.
1. Membuat suatu dataset yang berkaitan langsung dengan bidang yang

spesifik agar menghasilkan hasil yang lebih akurat khusus untuk bidang
spesifik tersebut.
2. Mencoba alternatif dalam pengembangan model Whisper menggunakan
LoRA untuk mempersingkat waktu training.
3. Melakukan pengecekan pada tiap proses model (proses penerimaan sinyal
audio, ekstraksi fitur, tokenisasi fitur, dan inferensi) untuk pengecekan
proses mana yang memakan banyak waktu sehingga dapat dibenahi agar
model dapat melakukan proses dengan lebih cepat.
67
DAFTAR PUSTAKA
Aghajanyan, Armen, Luke Zettlemoyer and Sonal Gupta. “Intrinsic

Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning.” ArXiv abs/2012.13255 (2020): n. pag.
Ahmadi, Neda. “A comparative study of state-of-the-art speech recognition
models for English and Dutch.” (2020).
Arisaputra, Panji and Zahra, Amalia, Indonesian Automatic Speech Recognition
with XLSR-53. Ingénierie des Systèmes d’Information, Vol. 27, No. 6,
December, 2022, pp. 973-982, Available at SSRN:
https://ssrn.com/abstract=4142174
Bengio, S., & Keshet, J. (Eds.). (2009). Automatic Speech and Speaker
Recognition: Large Margin and Kernel Methods. Wiley.
Dong, Linhao, Shuang Xu, and Bo Xu. “Speech-Transformer: A No-Recurrence
Sequence-to-Sequence Model for Speech Recognition.” 2018 IEEE
International Conference on Acoustics, Speech and Signal Processing
(ICASSP), 2018. https://doi.org/10.1109/icassp.2018.8462506.
Errattahi, Rahhal, Asmaa El Hannani and Hassan Ouahmane. “Automatic Speech
Recognition Errors Detection and Correction: A Review.” International
Conference on Natural Language and Speech Processing (2015).
Hu, Edward J., Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean
Wang and Weizhu Chen. “LoRA: Low-Rank Adaptation of Large
Language Models.” ArXiv abs/2106.09685 (2021): n. pag.
Joshi, Pratik, Sebastin Santy, Amar Budhiraja, Kalika Bali, and Monojit
Choudhury. “The State and Fate of Linguistic Diversity and Inclusion in
the NLP World.” Proceedings of the 58th Annual Meeting of the
Association for Computational Linguistics, 2020.
https://doi.org/10.18653/v1/2020.acl-main.560.
68
Jurafsky, Martin. (2020). Speech and Language Processing.
https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
Mozilla. “Mozilla-Foundation/Common_voice_13_0 · Datasets at Hugging Face.”
mozilla-foundation/common_voice_13_0 · Datasets at Hugging Face.
Accessed July 10, 2023.
Norvig, Peter., Russell, Stuart Jonathan. Artificial Intelligence: A Modern
Approach. United Kingdom: Pearson, 2021.
Novitasari, Sashi, Andros Tjandra, Sakriani Sakti and Satoshi Nakamura.
“Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese,
and Bataks Speech Recognition and Synthesis.” Workshop on Spoken
Language Technologies for Under-resourced Languages (2020).
Open Ai. “Openai/Whisper-Large-V2 · Hugging Face.” openai/whisper-large-v2 ·
Hugging Face. Accessed July 10, 2023.
https://huggingface.co/openai/whisper-large-v2.
Radford, Alec, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey,
and Ilya Sutskever. "Robust Speech Recognition via Large-Scale Weak
Supervision." In International Conference on Machine Learning, pp.
28492-28518. PMLR, 2023.
Steinkraus, D., I. Buck, and P.Y. Simard. “Using Gpus for Machine Learning
Algorithms.” Eighth International Conference on Document Analysis and
Recognition (ICDAR’05), 2005. https://doi.org/10.1109/icdar.2005.251.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,
Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. "Attention is All
You Need." Proceedings of the 31st International Conference on Neural
Information Processing Systems (2017).
Washani, Nitin, and Sandeep Sharma. “Speech Recognition System: A Review.”
International Journal of Computer Applications 115, no. 18 (2015): 7–10.
https://doi.org/10.5120/20249-2617.
69
Wirawan, Cahya. “Cahya/Whisper-Large-ID · Hugging Face.”
cahya/whisper-large-id · Hugging Face. Accessed July 10, 2023.
https://huggingface.co/cahya/whisper-large-id.
Yu, D., & Deng, L. (2016). AUTOMATIC SPEECH RECOGNITION. Springer
London limited.
70
Lampiran A. Rencana Umum Proyek
Proyek capstone berupa web application sistem interview summarization untuk

menjawab gap antara kondisi yang ada saat ini pada proses job recruitment
utamanya job interview dengan kondisi yang diharapkan yaitu mengurangi
kebutuhan resource yang dibutuhkan pada proses job recruitment utamanya job
interview. Sistem dibagi menjadi tiga subsistem sebagai berikut.
1. Sistem web application, sistem ini termasuk sisi front end dan back end
yang mengintegrasikan subsistem lain
2. Sistem speech to text, sistem ini berupa model machine learning yang
berfungsi untuk memproses ucapan menjadi teks
3. Sistem interview summarization, sistem ini berupa model machine
learning yang berfungsi untuk merangkum teks (interview)
Terkhusus untuk tugas akhir ini merupakan pengimplementasian dari subsistem

pertama yaitu sistem speech to text.
71
Lampiran B. Spesifikasi Kebutuhan Sistem
Kebutuhan dari sistem adalah sebagai berikut.
ID Kebutuhan Penjelasan
F-101 Sistem dapat mendaftarkan Sistem memiliki fitur registrasi untuk

pengguna baru untuk mendaftar akun bagi pengguna untuk
kandidat dan representasi kandidat dan representasi pemberi kerja
pemberi kerja
F-102 Sistem dapat Sistem memiliki fitur login bagi

mengautentikasi pengguna pengguna untuk kandidat dan
untuk kandidat dan representasi pemberi kerja masuk ke
representasi pemberi kerja dalam sistem
F-103 Sistem dapat menampilkan Sistem memiliki fitur menampilkan

koleksi pertanyaan untuk koleksi pertanyaan bagi representasi
representasi pemberi kerja pemberi kerja untuk diberikan kepada
kandidat untuk dijawab
F-104 Sistem dapat menambahkan Sistem memiliki fitur tambah pertanyaan

pertanyaan ke koleksi untuk bagi pengguna tipe representasi pemberi
representasi pemberi kerja kerja
F-105 Sistem dapat mengubah Sistem memiliki fitur ubah pertanyaan

pertanyaan dari koleksi bagi pengguna tipe representasi pemberi
untuk representasi pemberi kerja jika dibutuhkan mengubah detail
kerja pertanyaan
F-106 Sistem dapat menghapus Sistem memiliki fitur hapus pertanyaan

pertanyaan dari koleksi bagi pengguna tipe representasi pemberi
untuk representasi pemberi kerja jika dibutuhkan menghapus
kerja pertanyaan
F-107 Sistem dapat menampilkan Sistem memiliki fitur menampilkan

koleksi kompetensi untuk koleksi kompetensi bagi representasi
representasi pemberi kerja pemberi kerja untuk diberikan kepada
72
kandidat untuk dievaluasi
kompetensinya
F-108 Sistem dapat menambahkan Sistem memiliki fitur tambah

kompetensi ke koleksi untuk kompetensi bagi pengguna tipe
representasi pemberi kerja representasi pemberi kerja
F-109 Sistem dapat mengubah Sistem memiliki fitur ubah kompetensi

kompetensi dari koleksi bagi pengguna tipe representasi pemberi
untuk representasi pemberi kerja jika dibutuhkan mengubah detail
kerja kompetensi
F-110 Sistem dapat menghapus Sistem memiliki fitur hapus kompetensi

kompetensi dari koleksi bagi pengguna tipe representasi pemberi
untuk representasi pemberi kerja jika dibutuhkan menghapus
kerja kompetensi
F-111 Sistem dapat menampilkan Sistem memiliki fitur tampil daftar

daftar ruangan interview ruangan interview yang sudah dibuat
untuk kandidat dan oleh representasi pemberi kerja bagi
representasi pemberi kerja kandidat
F-112 Sistem dapat menampilkan Sistem memiliki fitur tampil detail

detail ruangan interview ruangan interview dengan detail yang
untuk kandidat dan berbeda bagi kandidat dengan
representasi pemberi kerja representasi pemberi kerja
F-113 Sistem dapat membuat Sistem memiliki fitur buat ruangan baru
ruangan interview baru yang dapat digunakan oleh representasi
untuk representasi pemberi pemberi kerja untuk membuat ruangan
kerja interview bagi kandidat
F-114 Sistem dapat merekam Ruangan interview yang sudah dibuat

gambar dan suara untuk oleh representasi pemberi kerja
kandidat kemudian memiliki fitur rekam gambar
dan suara kandidat untuk kandidat
menjawab pertanyaan-petanyaan yang
diberikan
73
F-115 Sistem dapat mengubah Sistem memiliki fitur mengubah status
status ruangan interview ruangan interview bagi representasi
untuk representasi pemberi pemberi kerja untuk mengubah ruangan
kerja interview suatu kandidat
F-116 Sistem dapat menampilkan Sistem memiliki fitur tampil detail profil
detail profil untuk kandidat bagi kandidat dan representasi pemberi
dan representasi pemberi kerja
kerja
F-117 Sistem dapat mengubah Sistem memiliki fitur ubah detail profil
detail profil untuk kandidat jika diperlukan bagi kandidat dan
dan representasi pemberi representasi pemberi kerja
kerja
F-118 Sistem dapat mengubah Sistem memiliki fitur ubah password

password untuk kandidat jika diperlukan bagi kandidat dan
dan representasi pemberi representasi pemberi kerja
kerja
F-119 Sistem dapat memproses Sistem memiliki subsistem berupa

ucapan pada interview model machine learning yang berfungsi
menjadi dalam bentuk teks untuk mengubah ucapan menjadi teks
F-120 Sistem dapat memproses Sistem memiliki subsistem berupa

teks menjadi penilaian model machine learning yang berfungsi
kompetensi untuk menilai kompetensi kandidat
74
Lampiran C. Rancangan Sistem
Rancangan sistem dari proyek capstone ini dalam diagram arsitektur adalah
sebagai berikut.
75
76

Dwianditya Hanif Raharjanto - BukuTA-2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Dwianditya Hanif Raharjanto - BukuTA-2

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGEMBANGAN MODEL ALIH SUARA MENJADI TEKS

INTERVIEW SUMMARIZATION SYSTEM BERBASIS

Laporan Tugas Akhir

Disusun sebagai syarat kelulusan tingkat sarjana

PROGRAM STUDI TEKNIK INFORMATIKA

INTERVIEW SUMMARIZATION SYSTEM BERBASIS

Laporan Tugas Akhir

Telah disetujui dan disahkan sebagai Laporan Tugas Akhir

Pembimbing I, Pembimbing II,

TUGAS AKHIR CAPSTONE

Judul Proyek TA : Pengembangan Interview Summarization System Untuk

Anggota Tim dan Pembagian Peran:

No. NIM Nama Peran

Bandung, 7 Agustus 2023

Pembimbing I, Pembimbing II,

Dengan ini saya menyatakan bahwa:

1. Pengerjaan dan penulisan Laporan Tugas Akhir ini dilakukan tanpa

Bandung, 7 Agustus 2023

PENGEMBANGAN MODEL ALIH SUARA MENJADI TEKS

Kata kunci: Automatic Speech Recognition, Word Error Rate, Whisper,

Lampiran A. Rencana Umum Proyek................................................................70

Gambar I.1 Tahapan Utama Metodologi CRISP-DM (Ahmadi, 2020)................. 19

Tabel II.1 Studi Literatur Pelatihan Model ASR pada Dataset

I.1 Latar Belakang

Proses rekrutmen diadakan untuk mewujudkan regenerasi SDM. Rekrutmen disini

I.2 Rumusan Masalah

Rumusan masalah dalam memenuhi keinginan mendapatkan calon karyawan yang

Berdasarkan rumusan masalah, maka akan didefinisikan batasan yang digunakan

1. Dataset yang digunakan untuk learning berasal dari dataset open-source

Pada Tahap ini, hal yang difokuskan adalah mengidentifikasi,

Tahapan ini bertujuan untuk mempersiapkan dataset yang akan digunakan

Pada tahap ini, tujuan utamanya adalah memberikan penilaian dan

Tahapan ini bertujuan untuk melakukan implementasi model yang telah

I.6 Sistematika Pembahasan

Proses rekrutmen melibatkan pencarian dan penyesuaian kandidat potensial untuk

Gambar II.1 Diagram Proses Seleksi (Waldt, 2014)

Mustapha (2013) menguraikan tahap-tahap dari proses rekrutmen dan seleksi

1. Tahap Wawancara Pertama atau Pendahuluan: Tahap ini biasanya

II.2 Wawancara Pekerjaan

Job Interview adalah suatu percakapan antara kandidat dengan representasi

II.3 Pengenalan Ucapan

1. Pemrosesan Sinyal dan Ekstraksi Fitur (Signal Processing and Feature

Menurut gambar yang ada, dijelaskan lebih lanjut mengenai langkah-langkah

1. Pemrosesan sinyal dan ekstraksi fitur

Langkah-langkah proses dimulai dari komponen pertama yang menerima

2. Pemrosesan via Model Akustik

Model akustik disini memiliki tugas untuk menggabungkan pengetahuan

3. Pemrosesan via Model Bahasa

Setelah terhitung skor akustik model, Model bahasa menghitung skor

Komponen terakhir menggabungkan kedua skor tersebut dan

Sistem ASR memiliki berbagai macam pendekatan seperti pendekatan berbasis

II.3.2 Arsitektur Pengenalan Ucapan Berbasis Transformers

Encoder bertanggung jawab untuk mempelajari representasi teks dari input,

Arsitektur Transformers telah menghasilkan hasil yang mengesankan dalam

memiliki tugas untuk mengubah sekuens fitur suara ke sebuah representasi

Representasi tersembunyi ini kemudian diproses oleh decoder yang

Gambar II.3 Arsitektur ASR berbasis Transformer (Dong et al. 2018)

Sebagai model seq2seq non-rekuren, Speech-Transformer berbeda dari model

II.4.1 Pembuatan Model secara Pre-trained

Model pre-trained adalah model yang telah menjalani proses pelatihan

Proses pelatihan pre-trained dilakukan dengan memberikan model akses ke data

(Joshi et al., 2020) melakukan klasifikasi bahasa dalam bidang Pemrosesan