Anda di halaman 1dari 3

Klasifikasi Suara Vokal menggunakan metode

Cepstrum

Ahmad Zafrullah (15/389236/PTK/10356)


Teknik Elektro dan Teknologi Informasi
Universitas Gadjah Mada
Yogyakarta
zaf.mti15@mail.ugm.ac.id

Abstrak: Bagi telinga manusia akan sangat mudah untuk Metode transformasi yang umum digunakan untuk
mengenali suara, tetapi tidak mudah bagi sistem elektronik mentransformasikan domain waktu menjadi domain
agar dapat mengenali suara. Sistem elektronik dalam hal ini frekuensi adalah Fourier. Salah satu keuntungan dari domain
komputer memerlukan pola untuk dapat mengenali suara frekuensi adalah dapat memberikan gambaran jumlah
manusia. Cepstrum merupakan metode transformasi untuk frekuensi yang terdapat dalam suatu sinyal (modulasi).
mempermudah dalam menemukan ciri atau pola dari sebuah Dalam kehidupan sehari-hari banyak ditemukan aplikasinya
sinyal. Tingkat kemiripan setiap data pola dan uji dapat dalam sistem penyiaran radio, dimana pendengar dapat
dihitung dengan metode klasifikasi, salah satunya yang memilih sendiri frekuensi yang ingin fokus didengar
umum digunakan adalah Euclidean. Pada akhirnya akan meskipun perangkat Radio yang dimiliki menangkap sinyal
didapatkan data uji dianggap sama dengan pola dengan yang telah termodulasi dari banyak frekuensi.
memilih nilai euclidean yang paling rendah.
Kata kunci: pengenalan pola suara, cepstrum.
METODE CEPSTRUM
Metode Cepstrum memiliki keunggulan dalam
PENDAHULUAN menemukan sinyal periodik atau tidak periodik. Selain itu
metode cepstrum juga banyak digunakan untuk membantu
Dalam pengolahan sinyal, terdapat domain (kawasan) menentukan nada dalam suatu data sinyal. Secara teknis
yang akan menjadi basis dari data sinyal tersebut. Domain mengembalikan data sinyal yang sebelumnya telah
yang banyak digunakaan saat ini adalah domain waktu dan ditransformasi menggunakan Fourier [1].
domain frekuensi.
Domain waktu merepresentasikan tingkat aplitudo dari
data sinyal, dalam watuan waktu. Dalam definisi lain domain
waktu menyatakan bagaimana sinyal berubah-ubah sesuai
dengan perubahan waktu. Nilai kuadrat dari absolut DFT (Discrete Fourier
Transform) disebut sebagai Power Spectrum.

Kemudian inverse DFT dari Logaritma Power Spectrum


merupakan nilai Cepstrum. Penamaan Cepstrum merupakan
nama Spectrum yang dibalik urutan 4 huruf didepannya.
Dalam metode Cepstrum beberapa nama lainnya juga
memiliki perubahan, diantaranya Gamnitude (Magnitude),
Quefrency (Frequency), dan Lifter (Filter).

AKUISISI DATA
Dalam penelitian ini suara sampel diambil melalui
program Matlab dengan spsifikasi:

Gambar 1: Domain waktu dan Frekuensi Sampling rate : 8000


Bit :8
Channel :1
Duration : ~3s

Gambar 4: Cepstrum dari vokal O dengan skala amplitudo yang sama

Dari data sinyal suara awal, ketika proses perekaman


terdapat jeda (terkadang noise) diantara sinyal inti dari suara.
Ketika dirubah menjadi domain frekuensi, frekuensi dari jeda
atau noise tersebut akan menjadi nilai 0, dan karena jeda atau
Gambar 2: Cepstrum dari suara vokal AIUEO noise tersebut cukup panjang maka frekuensi 0 akan
mempengaruhi skala pada hasil Cepstrum.
Dalam penelitian ini dilakukan pemotongan (offset) untuk
data Cepstrum sejumlah 5 data sebagai usaha untuk
menghilangkan noise dan menjaga skala dari kedua spektrum
tetap seimbang.

KLASIFIKASI
Untuk menentukan kemiripan dua buah sinyal yang
dibandingkan digunakan metode Euclidean untuk
menghitung jarak (selisih) antar nilai amplitudo frekuensi.

Gambar 3: Sinyal suara dari vokal AIUEO

Gambar 3 merupakan plot masing-masing sinyal dari


vokal AIUEO daru suara peneliti yang diambil dalam kondisi
Terdapat banyak algoritma klasifikasi yang dapat
yang cukup tenang (tanpa noise).
digunakan, namun dalam penelitian ini Euclidean digunakan
karena memiliki formula yang sederhana sehingga dapat
mempeercepat proses komputasi.
NORMALISASI
Setelah data sinyal suara ditransformasikan menggunakan
metode Cepstrum, nilai amplitudo yang didapat didak sama. PENGUJIAN
Untuk itu perlu dilakukan normalisasi agar nilai aplitudo dari
Dalam penelitian ini pengujian dilakukan menggunakan
sinyal suara maupun Cepstrum memiliki skala yang sama,
beberapa data sinyal suara yang berbeda, baik dari sumber
dalam penelitian ini skala yang digunakan adalah 0 sampai 1.
(manusia) yang sama dilakukan beberapa kali perekaman
maupun dari sumber yang berbeda. Hal tersebut untuk
memastikan tingkat akurasi kemampuan pengenalan yang
dapat dilakukan oleh serangkaian metodologi dalam
penelitian ini.
Klasifikasi menggunakan formula diatas, yakni membagi
nilai Cepstrum pada index-i dengan maksimum nilai
Cepstrum dari keseluruhan data.

Gambar 5: Pengujian kemiripan sinyal


Untuk data sampel, setiap sinyal suara vokal
dibandingkan satu sama lain sehingga menghasilkan data
seperti ditunjukkan pada tabel dibawah ini:

Tabel 1: Hasil pengujuan data sampel

Dalam pengujian ini menggunakan dari dari 3 sumber


yang berbeda. Data sampel adalah data suara dari peneliti
sendiri. Peneliti merekam suara vokal sebanya dua kali, tabel
1 adalah hasil pengujian antara rekaman 1 dan rekaman 1.

Tabel 4: Hasil pengujuan sumber 1 dan sumber 3


Tabel 2: Hasil pengujian data rekaman 1 dan 2 Sumber 3 adalah suara vokal yang berasal dari suara
perempuan. Dari data yang ditunjukkan pada tabel 4 dapat
Pada tabel 2 diperlihatkan hasil dari pengujian antara dilihat bahwa tingkat pengenalan yang didapat adalah sekitar
rekaman 1 dan 2, terlihat bahwa tingkat pengenalan yang 53% berhasil.
didapat hanya 60% yang berhasil.
Dari beberapa tabel hasil pengujian terlihat bahwa tingkat
akurasi dari Cepstrum tidak cukup baik untuk mengenali
suara, yakni hanya berkisa antara 53% - 60% saja.

KESIMPULAN
Kombinasi metode Cepstrum dan Euclidean, serta
tambahan normalisasi sebagaimana telah dijelaskan dalam
bagian sebalumnya tidak cukup baik dalam mengenali suara
vokal, baik suara laki-laki maupun perempuan.
Tabel 3: Hasil pengujuan sumber 1 dan sumber 2 Penelitian selanjutnya dapat menggunakan metode
klasifikasi lain severti Support Vector Machine (SVM),
Pada tabel 3 diatas ditunjukkan hasil pengujian antara Neural Network, dan metode lainnya untuk membantu
sumber 1 dan sumber 2, dimana tingkat pengenalan yang meningkatkan akurasi pengenalan suara.
didapat turun menjadi 40%. Sumber 1 dan sumber 2
merupakan suara vokal dari laki-laki.
REFERENSI
1. Theodoridis, S. and K. Koutroumbas, Pattern Recognition
4th Edition. 2009.

Anda mungkin juga menyukai