Mel
Mel
stabil pada skala waktu 10-30 ms. Framing berfungsi untuk memotong sinyal suara dengan
durasi yang panjang menjadi durasi yang lebih pendek, agar didapatkan karakteristik sinyal
suara yang lebih stabil. Sedangkan proses windowing bertujuan untuk mengurangi terjadinya
kebocoran spektral atau aliasing yang merupakan suatu efek dari timbulnya sinyal baru yang
memiliki frekuensi yang berbeda dengan sinyal aslinya. Efek tersebut dapat terjadi karena
rendahnya sampling rate atau karena proses framming yang menyebabkan sinyal menjadi
diskontinu. Windowing dilakukan pada sinyal diskrit.
2. DFT
Untuk mendapatkan sinyal dalam domain frekuensi dari sebuah sinyal diskrit, salah satu
metode transformasi fourier yang digunakan adalah Discrete Fourier Transform (DFT).
DFT dilakukan terhadap masing-masing frame dari sinyal yang telah di-windowing. DFT
dilakukan setiap 10ms pada sinyal suara tersebut.
3. Mel-Frequency Wrapping
SkalaMel-Frequency adalah frekuensi yang linier di bawah 1 kHz dan logaritmik di atas 1
kHz. Skala Mel dapat diperoleh dengan pendekatan persamaan :
B(f) = 1125 * ln(1 + f/700)
Di mana B adalah skala Mel-Frequency dan f adalah frekuensi linier.
4. Cepstrum
Mel-Frequency Cepstrum kemudian didapat dari DCT(Discrete Cosine Transform) untuk
mendapatkan kembali sinyal dalam domain waktu. Hasilnya disebut sebagai Mel-Frequency
Cepstral Coefficient (MFCC). MFCC bisa didapat dari pendekatan persamaan :
Di mana adalah hasil akumulasi dari kuadratik magnitudeDFTyang dikalikan dengan MelFilter Bank. Setelah itu didapatlah MFCC. Pada sistem pengenalan suara, biasanya hanya 13
cepstrum koefisien pertama yang digunakan.
Mel Scale
Mel Scale / skala mel berhubungan dirasakan frekuensi, atau lapangan, dari nada murni
untuk frekuensi yang diukur sebenarnya. Manusia jauh lebih baik di perubahan kecil yang
cerdas di lapangan pada frekuensi rendah daripada mereka pada frekuensi tinggi.
Menggabungkan skala ini membuat fitur kami cocok lebih dekat apa yang manusia
mendengar. Rumus untuk mengkonversi dari frekuensi ke skala Mel adalah:
Dimana h(n) adalah n jendela analisis panjang sampel (misalnya Hamming window), dan K
adalah panjang DFT. Berbasis periodogram spektral daya estimasi untuk frame kata si(n)
diberikan oleh:
Ini disebut perkiraan Periodogram dari spektrum kekuasaan. Kami mengambil nilai absolut
dari Fourier transform kompleks, dan persegi hasilnya. Kita umumnya akan melakukan 512
titik FFT dan tetap hanya yang pertama 257 koefisien.
3. Hitunglah filterbank Mel-spasi. Ini adalah satu set 20-40 (26 standar) filter segitiga yang
kita terapkan untuk estimasi spektral daya periodogram dari langkah 2. filterbank kami
datang dalam bentuk 26 vektor dengan panjang 257 (dengan asumsi pengaturan FFT fom
langkah 2). Setiap vektor sebagian besar nol, tetapi non-nol untuk bagian tertentu dari
spektrum. Untuk menghitung filterbank energi kita kalikan masing-masing filterbank dengan
spektrum daya, kemudian menambahkan koefisien. Setelah ini dilakukan kita dibiarkan
dengan 26 angka yang memberikan kita indikasi berapa banyak energi yang ada di setiap
filterbank. Untuk penjelasan rinci tentang bagaimana menghitung filterbank tersebut lihat di
bawah.
Berikut adalah plot nya :
H(z)=1-a*z-1
Tujuan dari Pre-emphasis adalah untuk mengkompensasi bagian frekuensi tinggi yang
ditekan selama mekanisme produksi suara manusia. Selain itu, juga dapat memperkuat
pentingnya forman frekuensi tinggi.
pre-emphasis:
s_2(n)=s(n)-a*s(n-1),
a=%f',
15.
16. subplot(2,1,1);
17. set(gca, 'unit', 'pixel');
18. axisPos=get(gca, 'position');
19. uicontrol('string', 'Play',
'callback', 'sound(y, fs)');
20. subplot(2,1,2);
'position',
[axisPos(1:2),
60,
20],
'position',
[axisPos(1:2),
60,
20],
24.
Output :
Dalam contoh di atas, kata setelah Pre-emphasis suara lebih tajam dengan volume yang lebih
kecil:Aslinya: whatFood.wav Setelah Pre-emphasis: whatFood-preEmphasis.wav