Anda di halaman 1dari 4

Desain Verifikasi Speaker menggunakan Dynamic Time Warping

(DTW) pada Pemrograman Grafis untuk Proses Autentikasi

Mekanisme otentikasi umumnya diperlukan pada sistem yang membutuhkan keamanan dan
privasi. Secara umum, nama pengguna dan kata sandi yang diketik digunakan dan diterapkan
dalam sistem otentikasi. Namun, jenis otentikasi ini telah diidentifikasi memiliki banyak
kelemahan. Untuk mengatasi masalah tersebut, banyak sistem otentikasi yang diusulkan
berdasarkan pada suara manusia sebagai karakteristik unik manusia. Kami menerapkan
algoritma Dynamic Time Warping untuk membandingkan suara manusia dengan suara
referensi sebagai proses otentikasi. Hasil pengujian menunjukkan bahwa kesamaan ujaran
dari pengenalan suara rata-rata adalah 86.785%.

1. Perkenalan
Sistem rumah pintar dibangun berdasarkan teknologi komputer dan informasi untuk
mengendalikan dan mengotomatisasi peralatan [1]. Ada berbagai macam tugas yang
memonitor dan mengontrol perangkat rumah pintar melalui penggunaan komputer [2],
browser web atau smartphone [3]. Salah satu area kunci dalam pengembangan sistem rumah
pintar terkait dengan keamanannya. Contohnya adalah pembatasan akses pengguna untuk
mengontrol perangkat rumah pintar. Untuk membatasi akses pengguna, umumnya proses
otentikasi dilakukan untuk memverifikasi pengguna dengan hak-hak tertentu. Ada berbagai
mekanisme untuk melakukan proses otentikasi mis. menggunakan Personal Identification
Number (PIN), kata sandi atau kartu ID pintar. Namun, mekanisme otentikasi semacam itu
telah dipelajari dan menjelaskan bahwa mereka memiliki kelemahan [4].
Penggunaan parameter biometrik manusia dengan karakteristik unik telah menjadi topik yang
menarik dalam mekanisme otentikasi [5] [6]. Salah satu biometrik populer untuk digunakan
sebagai otentikasi adalah menggunakan suara. Suara manusia dihasilkan terutama oleh paru-
paru, pita suara, dan artikulasi. Suara manusia dikenal memiliki karakteristik unik dari orang
ke orang. Oleh karena itu, banyak penelitian telah diusulkan untuk menggunakan suara
manusia sebagai masukan otentikasi dan referensi [7] [8].
Proses otentikasi yang didasarkan pada keunikan suara manusia umumnya terkait dengan
pengenalan pembicara dan verifikasi pembicara. Kedua istilah itu bertujuan untuk
membedakan pembicara dari pembicara lain. Namun, pengenalan pembicara, atau identifikasi
pembicara bertujuan terutama untuk mengenali siapa yang berbicara dari serangkaian
populasi. Sementara itu, pembicara verifikasi bertujuan terutama untuk "memverifikasi"
suara masukan apakah itu cocok dengan suara yang direferensikan atau tidak. Dengan
demikian, verifikasi pembicara dapat digunakan untuk mengotentikasi dan verifikasi identitas
pembicara sebagai bagian dari proses keamanan [9]. Kami mengusulkan desain verifikasi
pembicara yang didasarkan pada pencocokan fitur menggunakan algoritma dynamic time
warping yang diimplementasikan menggunakan grafik pemrograman. Dalam pencocokan
fitur, kami merekam suara utama sebagai sinyal referensi dan lalu ekstrak fiturnya. Kemudian
dalam proses otentikasi, suara lain sebagai masukan perintah akan dicocokkan dengan sinyal
referensi dan menghitung derajatnya kesamaan.

2. Metode Penelitian
Diagram blok desain sistem yang diusulkan ditunjukkan pada gambar 1. Pada langkah awal,
kami menyimpan serangkaian fitur suara yang diekstrak menggunakan MFCC sebagai sinyal
referensi. Dalam proses ekstraksi fitur itu sendiri mengandung beberapa subproses, seperti
preprocessing sinyal dan ekstraksi fitur sendiri menggunakan Mel Frequency Cepstral
Coefficients (MFCC). Kemudian, ketika proses otentikasi terjadi, fitur yang disimpan akan
dibandingkan dengan suara input lain dalam bentuk urutan fitur. Perbandingan metode yang
digunakan algoritma Dynamic Time Warping dan skor akan digunakan untuk memverifikasi
pengguna yang benar.

2.1 Tahap Preprocessing


Tahap preprocessing dimulai dengan pra-penekanan pada sinyal suara untuk menekan bagian
frekuensi tinggi pada sinyal dengan menerapkan filter FIR. Selanjutnya, sinyal suara harus
dipisahkan dalam bingkai kecil karena sinyal suara dikenal sebagai sinyal non-stasioner.
Proses framing memotong sinyal suara menjadi sekitar 10ms segmen frame. Kemudian,
untuk setiap segmen, proses windowing akan diterapkan untuk mengurangi kesalahan dari
segmen yang tumpang tindih selama proses framing. Akhirnya, deteksi energi akan dilakukan
pada setiap frame untuk melihat apakah frame mengandung pengucapan atau tidak [10].
2.2 Tahap Ekstraksi Fitur
Tugas utama dalam tahap ekstraksi fitur adalah mengekstraksi informasi fitur dari kedua
suara referensi dan suara masukan. Proses ekstraksi fitur dimulai dengan menghitung Fast
Fourier Transform pada setiap frame. Tugas utama pada ekstraksi fitur menghitung Mel
Frekuensi Cepstral Coefficients (MFCC) pada setiap frame [11]. Koefisien ini akan disimpan
sebagai fitur suara.
2.3. Tahap Pencocokan dan Pemberian Skor
Secara umum, setiap orang memiliki kecepatan berbicara yang berbeda. Algoritma Dynamic
Time Warping (DTW) dikenal mampu menormalkan dan menemukan keselarasan terbaik
antara dua sinyal. Dalam kasus kami, kami akan menggunakan DTW untuk menemukan skor
pencocokan terbaik antara fitur referensi suara dan fitur input suara. Gambar 2 menunjukkan
kode pseudo dari algoritma DTW. Seperti yang bisa kita lihat dalam kode pseudo DTW, kita
juga perlu menghitung jarak Euclidean antara dua titik, yang merupakan titik input dan titik
referensi.

Fungsi DTW membutuhkan dua parameter sebagai input; textsequence dan


referencesequence. Untuk setiap urutan teks, jarak Euclidean dihitung (baris 5-16) dan proses
diulang untuk semua urutan teks (loop dalam baris 3). Setelah itu, sebuah array dibangun
berdasarkan jumlah baris dari textsequence dan referencesequence (baris 22). Akhirnya, ia
memanggil fungsi lain bernama DTWalign untuk menghitung penyelarasan terbaik (baris
25).
Dalam kode pseudo DTW, kita perlu memanggil fungsi lain untuk menghitung perataan
terbaik. Fungsi ini disebut "DTWalign". Kode pseudo perhitungan kesejajaran DTW
ditunjukkan pada Gambar 3.

3. Hasil dan Diskusi


3.1 Implementasi Kode
Kami mengimplementasikan kode pseudo dari algoritma DTW dalam pemrograman grafis
menggunakan Lab-VIEW. Lab-VIEW adalah pemrograman grafis berbasis dataflow yang
dibuat oleh National Instruments. Lab-LIHAT dapat secara otomatis mengkompilasi kode ke
beberapa utas atau inti yang dapat membuatnya berjalan lebih cepat daripada operasi satu
atau sekuensial tunggal [12]. Dalam fitur-fitur suara yang tersimpan, kami merekam dan
menyimpan satu kata sebagai contoh perintah. Kemudian, suara input sebagai perintah
pengujian dicatat dan diekstraksi sebagai fitur suara. Setelah mendapatkan kedua fitur suara,
DTW melakukan fungsinya pada kedua sinyal. DTW akan menormalkan variasi tingkat
berbicara dengan menemukan keselarasan terbaik antara dua sinyal yang berbeda. Sebagai
bagian dari operasinya, DTW akan menggunakan jarak Euclidean untuk menghitung jarak
antar titik di kedua sinyal. Output dari proses ini adalah persentase derajat perataan sinyal.
Ketika kedua sinyal memiliki keselarasan terbaik, itu berarti mereka memiliki tingkat
kesamaan yang lebih tinggi. Dengan demikian, dapat disimpulkan bahwa mereka diucapkan
oleh pembicara yang sama. Gambar 4 menunjukkan implementasi algoritma DTW dan
penghitungan jarak Euclidean.

3.2 Pengujian dan Analisis


Sistem sedang menguji dengan menghubungkan mikrofon dengan komputer yang telah
menginstal program lab-VIEW. Sistem diuji menggunakan dua skenario.
Skenario pertama, bertujuan untuk menguji kesamaan ujaran sistem dalam mengenali
persentase kesamaan suara speaker dengan kamus. Skenario ini memberikan input suara
"hello" pada sistem oleh seorang pembicara 20 kali. Hasil pengujian persentase kesamaan
ucapan oleh pembicara yang sama ditunjukkan pada tabel 1.

Skenario kedua bertujuan untuk memverifikasi suara. Sistem ini diuji oleh empat orang yang
masing-masing memberikan masukan ucapan "halo" sebanyak 5 kali. Sistem menampilkan
persentase kesamaan suara. Proses sistem otentikasi ditandai dengan lampu LED. Hasil
pengujian persentase kesamaan ujaran oleh pembicara yang berbeda adalah pertunjukkan

4. Kesimpulan
Kami memiliki desain verifikasi speaker menggunakan dynamic time warping (DTW) pada
pemrograman grafis untuk proses otentikasi. Hasil pengujian menunjukkan bahwa kesamaan
ujaran dari pengenalan suara rata-rata adalah 86.785%. Ini karena suara yang relatif besar.
Selama pengujian, kebisingan terjadi antara 15-20% suara amplitudo. Penelitian lebih lanjut
adalah untuk mengurangi kebisingan sehingga sistem menjadi lebih akurat.

Daftar Pustaka
https://www.e-jurnal.com/2017/10/design-of-speaker-verification-using.html

Anda mungkin juga menyukai