79 157 1 SM

Progresif, Vol. 6, No.
2, Agustus 2010 : 641-686 ISSN 0216-3284
PENGOLAHAN SUARA MENGGUNAKAN TRANSFORMASI

WAVELET DAN JARINGAN SYARAF TIRUAN
UNTUK PENGENALAN PEMBICARA
Rustati Rahmi
ABSTRAK
Pengenalan pembicara berbeda dari pengenalan ucapan (speech recognition), dimana pengenalan
ucapan lebih dikonsentrasikan pada ekstraksi dari beberapa bagian informasi pesan yang didalamnya
berisikan teks yang diucapkan. Teks yang diucapkan ini mengandung unit-unit linguistic yang lebih dikenal
sebagai Phonem, kata-kata kunci suatu pesan ataupun pesan yang lengkap. Sedangkan pengenalan
pembicara (speaker recognition) menekankan pada analisa suara yang diucapkan oleh setiap pembicara
sehingga dapat dibedakan karakteristik unik suara dari tiap pembicara tersebut.
Dalam proses pengenalan pembicara akan dilakukan beberapa proses yaitu: akuisisi data suara
digital, kemudian dilakukan proses frame blocking dan windowing (proses segmentasi dan frame) untuk
meminimalkan diskontinyuitas sinyal pada bagian awal dan akhir sinyal suara. Pada proses selanjutnya
dilakukan Ekstraksi ciri sebagai proses pemampatan data agar berdimensi kecil tanpa mengubah
karakteristik sinyal suara. Proses ini dilakukan dengan menggunakan Transformasi Wavelet, yaitu
menghasilkan koefisien prediksi. Kemudian dilakukan proses referensi pembicara dengan melakukan
pelatihan terhadap data sinyal suara yang telah di-ekstrak, untuk mendapatkan klasifikasi pola suara
pembicara yang berbeda, proses ini dilakukan dengan metode JST Som Kohonen.
Dari penelitian ini telah didapati akurasi pengenalan pembicara dengan tingkat keberhasilan sebesar
96% dalam proses pengenalan pola suara.
Kata kunci: Pengenalan Pembicara (recognition speaker), Transformasi Wavelet, SOM Kohonen
I. PENDAHULUAN Pengenalan pembicara (speaker

1.1 Latar Belakang recognition) menekankan pada analisa suara
Komunikasi suara (speech yang diucapkan oleh setiap pembicara
communication) merupakan salah satu sehingga dapat dibedakan karakteristik unik
media komunikasi utama manusia yang suara dari tiap pembicara tersebut.[1] Pada
paling cepat dan tepat dalam menyampaikan penelitian-penelitian sebelumnya tentang
suatu informasi. Analisa suara merupakan pengenalan pembicara khususnya dalam
hal yang penting dalam beberapa proses proses pengolahan sinyal suara banyak
yang berkaitan dengan pemrosesan suara, digunakan metode Fourier Transformation,
misalnya identifikasi ucapan (speaker seperti: Linier Prediction Coding (LPC),
identification) atau pengenalan pembicara Mel Frequency Cepstrum Coefficients
(speaker recognition).[1] (MFCC), Neural Predictive Coding (NPC)
Pada pengembangannya sistem dan sebagainya, dimana semua metode
keamanan, pengolahan sinyal suara mulai tersebut berbasiskan Transformasi Fourier
ditingkatkan sebagai sistem deteksi sinyal dan tingkat pengenalannya cukup baik [2].
suara pembicara untuk pengenalan pelaku Pada penelitian ini akan dicoba
kriminal. Didalam penelitian tersebut masih metode lain dengan suatu konsep dan
banyak kendala/hambatan yang dihadapi pendekatan tanpa berbasis Transformasi
yaitu tentang metode yang tepat didalam Fourier yaitu Transformasi Wavelet.
proses sinyal suara untuk pengenalan Transformasi Wavelet ini belum banyak
pembicara secara tepat.[2] digunakan untuk analisa suara.
651
Progresif, Vol. 6, No. 2, Agustus 2010 : 641-686 ISSN 0216-3284
Transformasi Wavelet sinyal suara Tujuan yang akan dicapai oleh

menghasilkan resolusi waktu yang baik pada penulis dari penulisan tesis ini adalah :
frekwensi tinggi dalam menentukan batas 1.Meningkatnya sistem pengenalan suara
awal suara dan parametrisasi ciri suara pembicara dengan pendekatan metode
durasi rendah serta mampu menganalisa Transformasi Wavelet dan JST Som-
sinyal diskontinu secara akurat.[3] Kohonen untuk meningkatkan keakurasian
Pada proses pengenalan pembicara, pengenalan pola sinyal suara.
dimana seperti yang diketahui bahwa sinyal 2.Pengukuran tingkat akurasi sistem dan
suara manusia mempunyai tingkat pembandingan terhadap hasil penelitian
variabilitas yang sangat tinggi, sehingga sebelumnya.
sinyal suara tersebut mempunyai pola
ucapan yang berbeda-beda. Salah satu 1.4 Manfaat Penelitian
metode yang dapat mengenali perbedaan
pola suara, yaitu menggunakan metode Dapat digunakan dibidang
Jaringan Syaraf Tiruan. Salah satu jenis JST keamanan dalam pengidentifikasian
yang mampu memberikan unjuk kerja yang pembicara yang diaplikasikan pada sistem
bagus adalah JS dengan arsitektur Multi- Kata kunci (password) dan juga dapat
Layer Perceptron (MLP) dan pembelajaran dimanfaatkan untuk mengenali pola suara
Backpropagation.[4] Kedua metode JST ini pembicara dalam rangka pemberian
merupakan jenis Supervised. Namun ingin kepastian bila digunakan dalam kegiatan
dicoba juga untuk JST yang mempunyai mata-mata (spy) dalam melakukan proses
jenis Unsupervised, yaitu SOM Kohonen. penyadapan dan sebagainya.
Dimana prinsip pembelajarannya tidak
menggunakan data output sebagai target II. LANDASAN TEORI
pembelajaran. 1.5 Sinyal Suara
1.2 Rumusan Masalah Sinyal dapat dijelaskan sebagai

deskriptif fisik yang bervariasi seiring waktu
Akurasi pengenalan suara pembicara yang atau variabel bebas lainnya yang
dihasilkan pada penelitian sebelumnya, menyimpan suatu informasi.
masih memungkinkan untuk ditingkatkan Pengklasifikasian sinyal dapat dibedakan
dengan menggunakan alternative metode menjadi beberapa jenis yaitu: sinyal waktu
lain, sehingga apa yang menjadi pokok kontinyu, sinyal waktu diskrit, sinyal nilai
masalah dari penelitian ini adalah : kontinyu, sinyal nilai diskrit, sinyal random,
Pengenalan suara pembicara pada dan sinyal nonrandom. Sinyal waktu
penelitian sebelumnya sebesar 86% masih kontinyu dengan nama lain sinyal analog
perlu ditingkatkan akurasinya, sehingga adalah sinyal yang belum melalui proses
computer dapat lebih mengenali sample apapun.
suara yang diinputkan dan teregistrasi dalam Sedangkan sinyal nilai diskrit atau
proses pelatihan sinyal digital adalah sinyal analog yang telah
melalui proses sampling, quantization, dan
encoding.
1.3 Tujuan Penelitian Sampling adalah proses mengambil
nilai-nilai sinyal pada titik-titik diskrit
sepanjang variabel waktu dari sinyal waktu
652
kontinyu, sehingga didapatkan sinyal waktu 2. Merupakan fungsi band-pass pada

diskrit. Jumlah titik-titik yang diambil setiap domain frekuensi
detik dinamakan sebagai sampling rate. 3. Merupakan hasil penggeseran
Dalam melakukan sampling, perlu (translasi) dan penskala (dilatasi)
diperhatikan kriteria Nyquist yang dari sebuah fungsi tunggal (induk),
menyatakan bahwa sebuah sinyal harus yaitu:
memiliki sampling rate yang lebih besar dari
2fm, dengan fm adalah frekuensi paling tinggi
yang muncul disebuah sinyal. ... (2.1)
Quantization adalah proses
memetakan nilai-nilai dari sinyal nilai dengan a,b R (bilangan nyata), dan a 0.
kontinyu menjadi nilai-nilai yang diskrit, Dalam hal ini a adalah parameter penskala
sehingga didapatkan sinyal nilai diskrit. dan b adalah parameter penggeser posisi
Encoding adalah proses mengubah terhadap sumbu t. Faktor normalisasi |a|-1/2
nilai-nilai sinyal ke menjadi bilangan biner. digunakan untuk memastikan bahwa
a, b (t ) = (t )
.
Pada dasarnya, Transformasi
Wavelet merupakan sebuah teknik
pemrosesan sinyal multiresolusi. Dengan
sifat penskalaannya, wavelet dapat memilah-
milah suatu sinyal data berdasarkan
komponen frekuensi yang berbeda-beda.
Dengan demikian tiap-tiap bagian dapat
dipelajari berdasarkan skala resolusi yang
sesuai, sehingga diperoleh gambaran data
Gambar 1. Diagram Sinyal Analog dan secara keseluruhan dan detail.
Sinyal Digital[5] Keuntungan Transfomasi Wavelet
adalah bahwa jendelanya bervariasi. Untuk
mengisolasi ketidakkontinuan sinyal, dapat
1.6 Transformasi Wavelet digunakan fungsi basis yang sangat pendek.
Pada saat yang sama, untuk analisis
Transformasi adalah proses frekuensi secara terperinci, dapat digunakan
merepresentasikan suatu sinyal ke dalam fungsi basis yang sangat panjang.
domain / kawasan lain. Tujuan dari
transformasi adalah untuk lebih 1.7 Jaringan Syaraf Tiruan SOM
menonjolkan sifat atau karakteristik sinyal Kohonen
tersebut. Definisi wavelet (secara harfiah
berarti gelombang kecil) adalah himpunan Jaringan Self Organizing Maps
fungsi dalam ruang vektor L2I, yang (SOM) dikembangkan pada tahun 1982 oleh
mempunyai sifat-sifat sebagai berikut [1]: Teuvo Kohonen, seorang profesor dari The
1. Berenergi terbatas
Academy of Finland. SOM menggunakan metode pembelajaran unsupervised, artinya di
dalam melakukan pembelajaran tidak menggunakan data output sebagai target pembelajaran.
653
Sewaktu melakukan pembelajaran, unit kelompok yang vektor bobotnya memiliki jarak
yang paling dekat dengan vektor masukan akan dipilih sebagai unit pemenang. Jarak tersebut
biasanya ditentukan dengan menggunakan Eucledian Distance. Unit pemenang dan unit
tetangganya lalu diperbaharui bobotnya. Unit tetangga ditentukan berdasarkan topologi yang
digunakan untuk unit pengelompokan, misalnya: topologi linear, rectangular, hexagonal,
diamond, dan lain-lainnya.
III. METODE PENELITIAN

3.1 Kerangka Pemikiran
Gambar 2. Kerangka Pemikiran
654
3.2 Prosedur Perancangan Sistem
Akuisisi data Frame blocking Proses Trainning

suara dan windowing
(Proses (Proses segmentasi
perekaman dan penentuan Identitas
suara) frame) Pembentukan pola pembicara
(Proses pembobotan data dikenali
suara)
Ekstraksi Ciri
(Proses penentuan
koefisien prediksi)
Pencocokan pola
(Proses penentuan
Proses Testing pengenalan pola suara)
Proses
Komputer Pembandingan
Gambar 3. Tahapan Proses Sistem Pengenalan Pembicara
3.3 Pengolahan Data Suara
Pada sistem pengenalan pembicara

ini, proses yang dirancang meliputi 4(empat)
modul program yang dibentuk, yaitu terdiri
dari:
1. Modul Akuisisi : berfungsi untuk
pengambilan suara dan perekaman
suara serta proses sampling suara Gambar 4. Flowchart Proses Pemrosesan
2. Modul Verifikasi : berfungsi untuk Sinyal Suara
penentuan awal dan akhir kata dari
penentuan daerah suara, pengkodean Pada proses pelatihan dan pengujian,
pola suara serta pembuatan file vector data-data inputan (berupa koefisien prediksi
pola suara sebagai data masukkan pada yang dihasilkan dari proses pengolahan data
jaringan syaraf tiruan. Modul ini berisi suara menggunakan transformasi wavelet)
proses pembuatan frame, segmentasi diolah pada jaringan syaraf dengan
dan ekstrasi file. melakukan pelatihan terhadap bobot data
3. Modul Network : berfungsi untuk pelatihan dengan inisialisasi yang telah
menciptakan file jaringan syaraf dan ditentukan berupa ukuran layar kompetitif
melakukan pelatihan jaringan syaraf dengan ukuran 10 x 10, sebagai tempat
dengan menggunakan SOM Kohonen. pemetaan kluster dan beberapa parameter
4. Modul Klasifikasi : berfungsi untuk yang diperlukan sebagai penentu pelatihan
membentuk model pola suara untuk seperti learning rate, threshold, jarak
pengujian sistem pengenalan suara. tetangga (DNeighboor), nilai alpha dan
banyak iterasi.
655
Gambar 6. Gambar Proses Frame Sinyal

Suara Yang Tersegmentasi
Pada bagian selanjutnya adalah proses

penentuan frame dari data yang telah
tersegmentasi. Pada bagian ini bertujuan
untuk penentuan penyederhanaan data
spectrum yang panjang untuk diringkas
menjadi 16 data nilai yang akan digunakan
sebagai data pelatihan.
Berikut ini adalah hasil perhitungan

Gambar 5. Flowchart Pelatihan dan koefisien prediksi dari contoh data suara
Pengujian Pengenalan Suara perekaman yang ada. Dari 16 frame yang
ada, maka hasil perhitungan koefisien
File data suara yang dihasilkan prediksi terdiri dari 16 angka prediksi yang
tersebut merupakan himpunan nilai-nilai dihitung berdasarkan algoritma Wavelet,
amplitude dengan panjang data sesuai seperti tampilan di bawah ini:
dengan lama perekaman. Nilai-nilai
amplitude tersebut berkisar antara 0 255,
data ini dapat dilihat dari plot data grafik
waktu diskrit. Dari panjang data suara
tersebut hanya sebagian yang merupakan
gelombang suara bergetar (voice) dan yang
lainnya merupakan gelombang acak
(random) berupa desis. Salah satu hasil
segmentasi terhadap sebuah file data suara Gambar 7. Hasil perhitungan koefisien
sebagai berikut: prediksi dari data frame
Nama File:
C:\WINDOWS\Media\chimes.wav dengan 3.4 Proses Pelatihan dan Pengujian
awal kata pada titik = awal kata 8 dan akhir Pengenalan
kata pada titik = akhir kata 6958 dengan Vektor masukkan (X) untuk jaringan
panjang data = panjang data 6950 ditentukan dari hasil perhitungan Wavelet,
bobot (w) untuk tiap koneksi titik ditetapkan
656
dengan nilai acak antara 0 sampai dengan 1. Layar keluaran jaringan ditentukan dengan
ukuran 10x10 dengan nilai learning rate () ditetapkan antara 0.3 sampai dengan 0,5. Proses
pelatihan dari jaringan akan berhenti apabila bobot jaringan konvergen dengan ditunjukkan oleh
nilai Trainning Error. Penjelasan ini dapat dilihat pada gambar di bawah ini. Hasil keluaran
dari sistem jaringan syaraf berupa peta (mapping) hasil pengelompokkan (cluster) pola suara-
pola suara yang dilatihkan.
Gambar 8. Data Uji Suara dan Peta Pola Pelatihan dari masing-masing data suara pembicara
4. PENGUJIAN PERANGKAT LUNAK c. Mengeksekusi semua loop (perulangan)

Pengujian perangkat lunak pada batasan mereka dan pada batas
merupakan salah satu proses rangkaian dari operasional mereka
pengembangan perangkat lunak. Pengujian
dilakukan dengan dua metode yaitu: dengan Sistem pengenalan suara pembicara yang
pengujian dengan metode White box dan dibangun ini, terdiri dari beberapa
metode Black box. modul/prosedur/fungsi yang mempunyai
fungsi proses masing-masing, sebagai
4.1 Pengujian White Box sampel pengujian white box pada penelitian
ini adalah modul Proses Segmentasi, karena
Metode white box ini adalah suatu
modul ini dianggap paling rumit.
metode desain test case yang menggunakan
Modul/prosedur proses segmentasi dibangun
struktur kontrol desain prosedural untuk
dengan menggunakan algoritma seperti
memperoleh test case. Dengan
dibawah ini, maka pengujian pada
menggunakan metode pengujian white box,
modul/prosedur ini dapat ditunjukkan
perekayasaan sistem dapat melakukan test
dengan menelusuri logika pada algoritma ini
case yang dapat:
untuk melihat efisien dan kompleksitas
a. Semua modul telah digunakan minimal
logika yang dibangun. Pengujian tersebut
satu kali
dapat dilihat pada gambar penelusuran jalur
b. Menggunakan semua keputusan logis
independent di bawah ini.
pada sisi true dan false
657
procedure Segmentasi(filename : string);

const tresh1 = 5;
var i,j,ite1,ite2:integer;
tawal,takhir:boolean;
tmpstr :string;
stream2:TFilestream;
min,max,temp:integer;
tawal:=false;
takhir:=false;
min := wavedata[0].Data[0];
max := wavedata[0].Data[0];
for i := 0 to high(wavedata[0].Data) do >> 2
if ((max - min) > tresh1) then >> 3
if (tawal = false) then >> 4a
awal := i; >> 4b
tawal := true;
else >> 5
akhir := i;
if (wavedata[0].Data[i] > max) and (wavedata[0].Data[i] < min)
then >> 6
max := wavedata[0].Data[i];
min := wavedata[0].Data[i];
else >> 7
if (wavedata[0].Data[i] > max) and (wavedata[0].Data[i] > min)
then >> 8
max := wavedata[0].Data[i]
else >> 9
end if; >> 10
end if; >> 11
end if; >> 12
end For; >> 13
temp:=awal;
min := wavedata[0].Data[high(wavedata[0].Data)]; 14
max := wavedata[0].Data[high(wavedata[0].Data)];
for i := high(wavedata[0].Data) downto 0 do >> 15

if ((max - min) > tresh1) then >> 16
if (takhir = false) then >> 17
akhir := i; >> 18
takhir := true;
else >> 19
awal := i;
if (wavedata[0].Data[i] > max) and (wavedata[0].Data[i]< min)
then >> 20
max := wavedata[0].Data[i];
else >> 21
if (wavedata[0].Data[i]> max) and (wavedata[0].Data[i]> min)
then >> 22
max := wavedata[0].Data[i]
else >> 23
end if; >> 24
end if; >> 25
end if; >> 26
end for; >> 27
awal := temp; >> 28
for j := awal to akhir do >> 29

buf[j] := wavedata[0].data[j]; >> 30
frmVerifikasi.series2.Clear;
for i := awal to akhir do >> 31
frmVerifikasi.Series2.AddXY(i/36000, round(buf[i]), '', >> 32
clGreen);
end for; >> 33
end for; >> 34
658
Dari listing prosedur di atas, dapat spectrum suara dari data suara yang ada
dijabarkan dalam simpul logika berikut: hasil perekaman. Nilai kompleksitas
siklomatis lebih dari (>10) menunjukkan
bahwa pada prosedur tersebut lebih banyak
proses yang dperlukan untuk aktifitas yang
diperlukan sesuai fungsi yang ditetapkan.
Independent path adalah alur manapun
dalam program yang memperkenalkan
sedikitnya satu kumpulan perintah
pemrosesan atau kondisi baru. Adapun
independent path dari gambar flow graph
diatas adalah sebagai berikut:
Path 1 : 1-2-13-14-15-27-28-29-34
Path 2 : 1-2-3-4a-4b-12-2-13-14-15-16-17-18-26-15-27-28-29-30-
31-33-29-34
Path 3 : 1-2-3-5-6-8-10-11-12-2-13-14-15-16-19-21-22-24-25-26-
15-27-28-29-
30-31-33-29-34
Path 4 : 1-2-3-5-6-9-10-11-12-2-13-14-15-16-19-21-23-24-25-26-
15-27-28-29-
30-31-33-29-34
Path 5 : 1-2-3-5-7-11-12-2-13-14-15-16-19-20-25-26-15-27-28-
29-30-31-33-29-
34
Path 6 : 1-2-3-4a-4b-12-2-3-5-7-11-12-2-13
Path 7 : 1-2-3-5-6-8-10-11-12-2-3-5-6-9-10-11-12-2-13
Path 8 : 1-2-13-14-15-16-17-18-26-15-16-19-20-25-26-15-27
Path 9 : 1-2-13-14-15-16-19-21-22-24-25-26-15-16-19-21-23-24-
25-26-15-27
Path 10 : 1-2-13-14-15-27-28-29-30-31-33-29-34
Path 11 : 1-2-13-14-15-27-28-29-30-31-32-31-33-29-34
Gambar 9. Simpul Logika Aplikasi
Tabel 1. Pengujian
Dari jalur logika di atas maka dapat Path Input Output Hasil
ditentukan beberapa jalur logica/ jalur Path Data Tidak terjadi Sesuai
independent yang membangun prosedur 1 suara proses
segmentasi di atas. Oleh karena itu maka kosong segment
untuk menguji apakah benar jalur logika Path Data Terdeteksi Sesuai
yang dibentuk, diperlukan pencarian nilai 2 suara ke-i spectrum
kompleksitas siklomatisnya, seperti di lebih bergetar
bawah ini: besar dari
Berdasarkan flow graph diatas, maka threshold
kompleksitas cyclomatic-nya dapat di hitung Path Data Max=data Sesuai
sebagai berikut : 3 suara ke-i kei dan min
1. Flow graph diatas mempunyai 11 region lebih data ke-i
2. V(G) = 44 edges 35 nodes + 2 = 11 besar dari
3. V(G) = 10 predicates nodes + 1 = 11 max dan
Hasil kompleksitas siklomatis mendapatkan lebih
besaran nilai 11, hal ini menunjukkan kecil dari
prosedur segmentasi dibangun dengan 11 min
logika yang merupakan jalur proses sebagai Path Data Max=data Sesuai
unit proses untuk aktifitas segmentasi 4 suara ke-i ke-i dan min
659
lebih data apabila keluaran yang dihasilkan sesuai

besar dari sebelumnya yang diharapkan maka dapat dikatakan
max dan bahwa sistem lolos dari pengujian black box.
lebih Dalam sistem ini pengujian
besar min dilakukan dengan memberikan data-data
Path Data Proses Sesuai contoh dan dibandingkan dengan informasi
5 suara ke-i penentuan yang dihasilkan. Modul yang akan diuji
awal dan secara Black Box adalah: Pelatihan data
akhir suara suara dan Hasil pengenalan pembicara.
bergetar
Path Data Proses Sesuai Tabel 2. Hasil Uji Black Box Sistem
6 suara ke-i penentuan Identifikasi Pembicara
awal suara Input
Output
Fungsi
Hasil Uji
(Sesuai atau
(Event)
bergetar tidak sesuai)
Input
Path Data Proses Sesuai pengguna dan
Menampilkan
Form Login form login
7 suara ke-i penentuan password
Identif tampil identifikasi
Sesuai
yang telah
akhir suara terdaftar
pembicara
bergetar Input Form Menampilkan
pengguna dan pesan pesan
Path Data Pembentukan Sesuai password kesalahan kesalahan Sesuai
8 suara ke-i spectrum yang belum pemakai pemakai
terdaftar sistem tampil sistem
awal suara Klik menu Form Menampilkan Sesuai
bergetar Akuisisi Aplikasi aplikasi
Perekaman perekaman
Path Data Pembentukan Sesuai Suara suara manusia
9 suara ke-i spectrum Manusia dengan
dengan pengaturan
akhir suara Pengaturan parameter
bergetar Parameter cuplik suara
cuplik suara
Path Data Proses sesuai tampil
10 suara ke-i pembentukan Klik menu Form Menampilkan Sesuai
spectrum verifikasi Aplikasi aplikasi untuk
segmentasi untuk melakukan
suara bergetar melakukan segmentasi
pilihan dan hasilnya
Path Data Proses Sesuai segmentasi,
11 suara ke-i penentuan dan simpan
tampil
nilai Klik menu Form Menampilkan Sesuai
spectrum verifikasi aplikasi untuk aplikasi untuk
suara bergetar frame melakukan melakukan
proses frame proses frame
dan hasilnya dan hasilnya
4.3.2 Pengujian Black Box Klik menu Form aplikasi Menampilkan Sesuai
verifikasi untuk aplikasi untuk
Metode black box adalah pengujian perhitungan melakukan melakukan
user interface dimana setelah aplikasi sistem wavelet perhitungan perhitungan
wavelet dan wavelet dan
identifikasi pembicara diberikan ke hasilnya hasilnya
pengguna untuk dapat dioperasikan dengan Klik menu
simpan
Form aplikasi
untuk
Menampilkan
aplikasi untuk
Sesuai
baik. Metode pengujian ini akan diterapkan melakukan melakukan

dengan menggunakan tabel referensi penyimpanan
data
penyimpanan
data
masukan keluaran untuk menguji perilaku perhitungan perhitungan
sistem saat diberikan masukan tertentu, wavelet wavelet
660
Klik menu
jaringan
Form
aplikasi untuk
Menampilkan
aplikasi untuk
Sesuai yang telah ditentukan dan menghasilkan 30
pelatihan melakukan melakukan (tiga puluh) data prediksi yang digunakan
pelatihan data
suara dari
pelatihan data
suara dari
untuk input jaringan. Untuk selanjutnya
nilai koefisien nilai koefisien diidentifikasi menjadi 30 data suara
prediksi dan
tampilan
prediksi dan
tampilan
pembicara. Contoh salah satu hasil
pemetaan pemetaan perhitungan koefisien prediksi
klasifikasi
pola suara
klasifikasi
pola suara
menggunakan transformasi wavelet dari 30
Klik menu Form Memasukkan Sesuai (tiga puluh) orang pembicara dapat dilihat
jaringan Aplikasi data suara pada data di bawah ini.
pengujian untuk yang mau di
memasukkan uji dan [general]
data suara menghasilkan namafile=agung1.wav
yang mau di identifikasi [Detail]
uji dan pembicara frame1=14,4528128629258
menghasilkan bila suara uji frame2=13,1898163926032
identifikasi pernah dilatih frame3=34,6185596865345
pembicara frame4=0,970489474221717
bila suara uji frame5=1,09861581373799
pernah dilatih frame6=0,961142055473891
frame7=1,00548502823213
Data bobot Pelatihan Hasil Sesuai frame8=0,944394099234442
hasil klasifikasi perhitungan frame9=14,5642174827821
pelatihan pola suara nilai bobot frame10=0,939924609174206
pemenang frame11=0,981128607101161
dari proses frame12=0,951677017022268
pelatihan frame13=0,92707939435886
Data suara uji Pembandinga Hasil Sesuai frame14=0,857421980621375
n beberapa pengenalan frame15=0,733837779599622
pola suara pembicara frame16=0,808417203913459
dengan nilai yang
bobot mempunyai
pemenang data suara
proses yang telah Gambar 10. Contoh data suara yang telah di
pelatihan mengalami
pelatihan verifikasi
5. HASIL DAN PEMBAHASAN Proses belajar jaringan syaraf tiruan

SOM-Kohonen yang ditentukan oleh
Penelitian tesis ini diperlukan parameter-parameter jaringan (vector
sebanyak 30 pembicara dengan perlakuan masukkan, layar kompetisi, nilai
tiap-tiap pembicara merekam sinyal suara alpha/learning rate, dan banyaknya iterasi).
sebanyak masing-masing 5 kali perekaman Hasil penelitian jaringan syaraf tersebut
dengan kata yang sama. menunjukkan prosentase keberhasilan dan
Pengujian yang telah dilakukan pada kegagalan dari proses pelatihan beberapa
tahap praproses dengan menetapkan proses file suara sebagai data pelatihan, dalam
ekstraksi ciri dengan wavelet tipe mengenali dan mengklasifikasikan pola-pola
orthogonal yaitu Symlet, dengan ukuran suara dari beberapa suara yang diuji. Dari
vector (1 x 16) yang merupakan penjabaran hasil pengujian dengan nilai parameter yang
dari proses frame. Jumlah pembicara yang terdiri dari Treshold learning rate, iterasi,
diambil sebagai data training adalah 30 (tiga Dneighboor, nilai alpha (). Dimana
puluh) data suara hasil perekaman (data kombinasi pemakaian data input sangat
asli), kemudian dilakukan perhitungan mempengaruhi hasil pengenalan. Dari
koefisien prediksi menggunakan penentuan nilai threshold = 0,0001, Iterasi =
transformasi wavelet dengan ukuran vector 10000, Dneighboor = 3, dan nilai alpha() =
661
0,3, menghasilkan akurasi pengenalan yang 1

/
lebih baik, dibandingkan dengan kombinasi 5
=
parameter yang lain. Dari hasil uji coba, 2
maka didapat hasil dengan inputan 30 (tiga Jml
TK/%
0
%
1/25=
4%
puluh) orang pembicara menghasilkan
tingkat akurasi 90,67% tingkat keberhasilan.
Namun dengan data input 5 (lima) orang
pembicara dihasilkan tingkat akurasi sebesar Treshold:0,0001
Iterasi:10000
96% tingkat keberhasilan. Dneighboor:3
Alpha:0.3
Or suara suara suara suara suara Dik Tidak

an ena
g 1 2 3 4 5 li Dikenali
1 TK K K K K 4 1
2 K K K K K 5 0
3 K K K K K 5 0
4 K K K K K 5 0
5 K K K K K 5 0
Gambar 11. Informasi hasil pengujian
6 TK K K K TK 3 2
pengenalan suara
7 K K K K K 5 0
8 K K K TK K 4 1
Tabel uji coba pengenalan suara 9 K K K K K 5 0
menggunakan 5 orang dan 30 orang 10 K K K K K 5 0
pembicara . 11 K K TK TK K 3 2
12 K K K K K 5 0
13 TK K K K K 4 1
Treshold:0,0001 14 K TK K K K 4 1
Iterasi:10000
Dneighboor:3 15 K K K K K 5 0
Alpha:0.3
16 K K K K K 5 0
s 17 K TK K K K 4 1
u
18 TK TK K K K 3 2
ar
Nama Dikenali
a suara suara suara suara Tidak 19 K TK TK K K 3 2
Diken
1 2 3 4 5 ali 20 K K K K K 5 0
Akbar K K K K K 5 0 21 K K K K K 5 0
T
22 K K K K K 5 0
Agung K K K K K 4 1
23 K K K K K 5 0
Azzam K K K K K 5 0
24 K K K K K 5 0
Sita K K K K K 5 0
25 K K K K K 5 0
Made K K K K K 5 0
4 26 TK K K K K 4 1
/
5 27 K K K K K 5 0
=
8 28 K K K K K 5 0
Jml 0 5/5= 5/5= 5/5= 5/5=
29 K K K K K 5 0
K/% % 100% 100% 100% 100% 24/25=96%
662
30 K K K K K 5 0 5.2. Saran-saran
Jm
l 26=8 28=9 28=9 29=9
136
=90
Saran yang bisa diberikan sebagai
K/ 25=83,33 6,67 3,33 3,33 6,66 ,67 bahan pertimbangan setelah dilakukan
%
Jm
% % % % % %
penelitian dengan algoritma wavelet dan
l sistem pengenalan menggunakan jaringan
TK 5=16,67 4=19, 2=6,6 2=6,6 1=3,3 14=9,33
/% % 33% 7% 7% 3% % syaraf tiruan SOM Kohonen adalah untuk
meningkatkan proses pengenalan identitas
pembicara diperlukan analisa yang teliti
5. KESIMPULAN DAN SARAN dalam menentukan metode yang akan
5.1. Kesimpulan dipakai. Perlu ada pengkajian lebih lanjut
Dari hasil penelitian ini, dapat ditarik mengenai Transformasi Wavelet, untuk
kesimpulan bahwa untuk membentuk suatu mendapatkan tingkat pengenalan yang lebih
sistem pengenalan identitas pembicara tinggi.
berdasarkan suara dibutuhkan suatu sistem Dalam pembuatan sistem pengenalan
pintar yang mempunyai kemampuan suara, proses analisa dan pengolahan data
proses yang tinggi, hal ini diperlukan suatu diharapkan menjadi focus utama karena
metode pengolahan data suara dan metode pada bagian ini merupakan proses untuk
pengenalan pola suara yang tepat. menentukan nilai prediksi pengolahan suara
Transformasi Wavelet Diskret dapat yang akan digunakan dalam proses
digunakan dalam proses identifikasi selanjutnya. Untuk itu perlu ditentukan
pembicara pada bagian pemrosesan awal metode yang tepat untuk proses analisa nilai
(praproses) sinyal untuk mendapatkan prediksi, yang dapat menghasilkan nilai
informasi (ciri) sinyal tersebut. yang lebih sederhana tanpa mengurangi nilai
Transformasi Wavelet sebagai pengolah data yang terdapat pada data suara tersebut.
suara digital dan Jaringan Syaraf Tiruan Pemilihan metode pengenalan suara dari
SOM kohonen dapat memberikan hasil jaringan syaraf tiruan, harus dianalisa secara
pengenalan yang baik dengan tingkat sistematis beberapa keunggulan yang
akurasi mencapai 96%. Namun hal ini juga dimiliki oleh setiap metode yang terdapat
dipengaruhi oleh banyaknya data input suara dalam jaringan syaraf tiruan. Sehingga
pada proses pengenalan. Pada data suara nantinya dapat menunjukkan performa dari
berjumlah 30 (tiga puluh) orang mencapai proses pengenalan secara tepat.
tingkat akurasi 90,67%, dan dengan inputan
sebesar 5 (lima) orang pembicara tingkat
akurasi meningkat mencapai 96% tingkat DAFTAR PUSTAKA
kebenarannya. Hal ini disebabkan pada [1] Agustini, Ketut. 2006. Speaker Identification
with Discret Wavelet Transformation of Pra-
jaringan SOM Kohonen hanya mempunyai 1 processing and Neural Network.
(satu) layar sebagai input dan output untuk
pengklasifikasian pola suara, menyebabkan [2] Leon, C.G.K, 2009, Robust Computer Voice
terjadi tumpukan pola klasifikasi dari setiap Recognition Using Improved MFCC
pembicara bila jumlah inputan lebih banyak, Algorithm, Proc. IEEE
sehingga adanya identifikasi yang bias pada [3] Raymond S. Wagner, An Architecture for
pada proses pengenalan (pembicara satu bias Distributed Wavelet Analysis and Processing
masuk pada identifikasi pembicara yang in Sensor Networks, IPSN06, April 1921,
lain). 2006, Nashville, Tennessee, USA.Copyright
2006 ACM 1595933344/06/0004
663
[4] Pekka-Henrik Niemenlehto, Martti Juhola,

And Veikko Surakka, (2006), Detection of [14] Fauset, L. (1994),Fundamentals of Neural
Electromyographic Signals from Facial Network,Prentice Hall, Eaglewood Cliffs, NJ.
Muscles with Neural Networks, ACM
Transactions on Applied Perception, Vol. 3, [15] Kosko, Bart, (1992), Neural Network For
No. 1, January 2006, Pages 4861 Signal Processing,Prentice-Hall
International,Inc
[5] Agustini, Ketut, 2007, Biometrik Suara
dengan Transformasi Wavelet Berbasis [16] Parson, Thomas, W.,(1986),Voice and Speech
orthogonal Daubenchies, 50 Gematek Jurnal Processing,McGraw-Hill,USA
Teknik Komputer, Volume 9 Nomor 2.
[17] Richard, H. David, M.G., Ivan,
[6] Khairulvani, Feni, 2007, Identifikasi Individu L.,(1993),Sound Blaster: The Official Book.,
Melalui Suara Ucapan dengan Ekstraksi Ciri McGraw.
Mel-Frequency Ceptral Coefficient (MFCC)
sebagai Input Jaringan Syaraf Tiruan, Central [18] Wael Al-Sawalmeh, Khaled Daqrouq, Omar
Library ITB. Daoud, Abdel-Rahman Al-Qawasni,2010,
Speaker Identification Sistem-based Mel
[7] Campbell, J.P,JR, 1997, Speaker Recognition: Frequency and Wavelet Transform using
A Tutorial. Proc. IEEE, vol. 85, no 9,pp1437- Neural Network Classifier, European Journal
1462, 1997 of Scientific Research.
[8] Krishnan, M., Neophytou C.P., Prescott [19] Firoz, Shah, A, Raji, Sukumar, A and Babu,
G.,(1994),Wavelet Transform Speech Anto.P , 2010 , Discrete Wavelet Transforms
Recognition Using Vector Quantization, and Artificial Neural Networks for Speech
Dynamic Time Warping and Artificial Neural Emotion Recognition, International Journal of
Network, Center of excellence ini computer Computer Theory and Engineering, Vol 2,
aided sistem engineering and No.3 June
Telecomunication & Information Science
Laboratory 2291 Irving Hill Drive,Lawrence, [20] L.Salhi, M., Talbi, and A.Cherif, 2008, Voice
KS 66045. Disorders Identification Using Hybrid
Approach : Wavelet Analysis and Multilayer
[9] Candra, Heru K.,(2000), Voice Pattern Of Neural Networks, World Academy of Science,
Recognition Sistem With The SOM Engineering and Technology.
Kohonen,digilib-ITS, Theses Informatics
Engineering RT 006.3 Cans,
[10] Lawrence B. Holder,Speech Recognition Penulis:

(Briefly), Dra. Ec. Hj. Rustati Rahmi, M.Kom.
http://www.cs.berkeley.edu/~russell/classes/cs Dosen Tetap Yayasan Mandiri
188/s05/slides/chapter15b.pdf, 16 Mei 2010 pada STMIK BANJARBARU
[11] Burrus, C.S, Gopinath R.A., Guo, H. (1998),
Introduction to Wavelet and Wavelet
Transform A Primer, International Edition,
Prentice-Hall International, Inc.
[12] Dayhoff, Judith E., (1990),Neural Network

Architectures: An Introduction, Van Nostrand
Reinhold, New York.
[13] Embree, P.M., Kimble, B., (1991),C Language

Algoritms For Digital Signal
Processing,Prentice Hall International, Inc.
664

79 157 1 SM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

79 157 1 SM

Diunggah oleh

Hak Cipta:

Format Tersedia

Progresif, Vol. 6, No.

2, Agustus 2010 : 641-686 ISSN 0216-3284

PENGOLAHAN SUARA MENGGUNAKAN TRANSFORMASI

I. PENDAHULUAN Pengenalan pembicara (speaker

Transformasi Wavelet sinyal suara Tujuan yang akan dicapai oleh

1.2 Rumusan Masalah Sinyal dapat dijelaskan sebagai

kontinyu, sehingga didapatkan sinyal waktu 2. Merupakan fungsi band-pass pada

III. METODE PENELITIAN

Gambar 2. Kerangka Pemikiran

3.2 Prosedur Perancangan Sistem

Akuisisi data Frame blocking Proses Trainning

Gambar 3. Tahapan Proses Sistem Pengenalan Pembicara

3.3 Pengolahan Data Suara

Pada sistem pengenalan pembicara

Gambar 6. Gambar Proses Frame Sinyal

Pada bagian selanjutnya adalah proses

Berikut ini adalah hasil perhitungan

4. PENGUJIAN PERANGKAT LUNAK c. Mengeksekusi semua loop (perulangan)

procedure Segmentasi(filename : string);

for i := high(wavedata[0].Data) downto 0 do >> 15

awal := temp; >> 28

for j := awal to akhir do >> 29

lebih data apabila keluaran yang dihasilkan sesuai

baik. Metode pengujian ini akan diterapkan melakukan melakukan

5. HASIL DAN PEMBAHASAN Proses belajar jaringan syaraf tiruan

0,3, menghasilkan akurasi pengenalan yang 1

Or suara suara suara suara suara Dik Tidak

Tabel uji coba pengenalan suara 9 K K K K K 5 0

menggunakan 5 orang dan 30 orang 10 K K K K K 5 0

[4] Pekka-Henrik Niemenlehto, Martti Juhola,

[10] Lawrence B. Holder,Speech Recognition Penulis:

[12] Dayhoff, Judith E., (1990),Neural Network

[13] Embree, P.M., Kimble, B., (1991),C Language

Anda mungkin juga menyukai