SP Pertemuan 3

SPEECH PROCESSING
Pertemuan ke 3
Jurusan Teknik Elektro

Fakultas Teknik Universitas Andalas
2010
1
Speech Analysis
Speech Wave
LPF A/D Conversion
(sampling and Quantization Pre-emphasis
Analysis frame
Spectral Analysis Windowing extraction
Parametric
Feature Extraction
representation
2
Low Pass Filter
 Sinyal telephone dapat disampling setiap T=1/8000 (s), karena
bandwitdh dibatasi dibawah 4khz. Frekuensi sampling untuk
pemrosesan sinyal ucapan secara digital biasanya di set antara 6
sampai 16 khz.
 Low pass filter dibutuhkan untuk membatasi bandwitdh sebelum
sampling
 Ideal LPF
 Dengan Menggunakan Transformasi Fourier maka diperoleh
3
A/D conversion
 Untuk dapat dilakukan pemrosesan lebih lanjut maka sinyal ucapan ucapan
harus diubah kedalam sinyal elektrik dengan menggunakan microphone. Sinyal
elektrik selanjutnya ditansformasi dari bentuk analog kedalam bentuk digital
sebelum dilakukan pemrosesan sinyal dengan dua alasan :
 1. teknik digital memudahkan pemrosesan sinyal yang sangat rumit, yang tidak
dapat dilakukan dengan teknik analog
 2. pemrosesan digital jauh lebih reliable dan dapat dilakukan dengan
menggunakan compact circuit.
 Prosesnya terdiri dari sampling, quatisasi dan coding.
 Sampling : proses menggambarkan sinyal kontinu sebagai suatu deretan nilai
(sequence of values atau sample sequence)
If T is too large, original signal can’t be

reproduced from sampled sequence, conversely
if T is to small, useless samples for the original signal
reproductin are included in the sample sequence 4
A/D conversion
 Quantisasi : pendekatan untuk mewakili suatu nilai gelombang dengan suatu
set nilai yang terbatas
 Range amplitudo kontinu yang ada dibagi kedalam finit subrange,
amplitudo yang berada dalam sub range yang sama maka ditetapkan
mimiliki nilai amplitudo yang sama
 Karaktersitik kuantisasi tergantung pada jumlah level dan steap size
 Jika sinyal diasumsikan untuk dikuantisasi dengan B bit maka jumlah level
adalah 2B untuk menjamin penggunaan yang lebih efisien pada binary code
word
 Coding : menentukan suatu actual number pada setiap nilai, seperti binary
coding, yang menggunakan representasi angka biner
 Setiap code ditetapkan sedemikian sehingga dapat secara langsung
mewakili nilai amplitudo
 Perbedaana antara nilai yang dismapling setelah kuantisasi dengan nilai asli
pada sinyal analog disebut kesalahan kuantisasi atau penyimpangan kuantisasi
atau quantization noise
5
Pre-emphasis
Pre-emphasis merupakan kompresi terhadap dynamic
range suatu sinyal dengan meratakan spektral
Menaikan energi sinyal pada frekuensi tinggi
Dapat meningkatkan SNR
Dilakukan dengan menggunakan filter digital orde satu
 ~
s (n)  s (n)  as (n  1)
Dimana s(n) adalah sinyal input dan adalah sinyal s(n)
yang telah mengalami pre-emphasis. Fungsi transfer adalah
: dengan ”a” adalah koefisien filter yang bernilai ≈ 0,97
Gambarkan bentuk filternya ....!
6
Analysis Frame Extraction
Sinyal ucapan merupakan sinyal yang tidak stasioner. Oleh
karena itu untuk melakukan analisis, sinyal ucapan yang telah di-
pre-emphasis dibagi kedalam frame-frame dengan durasi frame
berkisar 20-30 ms, dengan asumsi bahwa untuk durasi tersebut
sinyal bersifat stasioner.
Pemilihan Frame size harus sesuai dengan kebutuhan, contoh
pada kasus speech enhancement dengan SS, frame dibawah 20
ms. menyebakan roughness, memperbesar frame dapat
meningkatkan musical noise dan jika terlalu panjang
menyebabkan slurring, biasanya menggunakan 25 ms
Untuk mencegah ketidak kontinuan pada batasan frame maka
dibutuhkan untuk melakukan overlap pada framing.
Overlap sebesar 10 % sampai 50 %
JIka panjang sinyal 1 detik, frame size 20 ms dan overlap 50 %,
berapa jumlah frame yang diperoleh ......?
7
Windowing
 Setiap frame dilakukan fungsi windowing untuk
 1. Meredam secara berangsur-angsur amplitudo pada kedua ujung
frame untuk mencegah perubahan yang mendadak pada kedua ujung
frame, mengurangi efek ketidak kontinuan pada awal dan akhir frame.
 2. fungsi window dapat mengurangi spectral distortion
 Window yang paling banyak digunakan dalam analisis suara adalah
Hamming Window.
  2n 
 0 ,54  0, 64 cos ; dengan 0  n  N 1
w n     N 1 
0, lainnya

y[n]  w
 Dimana [n]~s [adalah
w(n) n] persamaan Hamming window dan y(n) adalah
hasil windowing terhadap sinyal .
Jenis window lain yaitu rectangular, Hanning, dll
8
Spectral Analysis
Sinyal ucapan dianalisa menggunakan domain
frekuensi atau spectral feature dibandingkan dengan
menggunakan domain waktu (waveform)
Alasan :
Sinyal ucapan dianggap dibentuk dari penjumlahan
banyak gelombang sinus, dimana amplitudo dan fasa
hanya sedikit mengalami perubahan
Feature utama pada persepsi ucapan oleh telinga
manusia sebagian besar terdapat dalam informasi
spektral sedangkan pada phasa tidak terlalu signifikan.
9
Untuk mengekstrak informasi spektral dari sinyal yang
telah di-window maka digunakan Transformasi Fourier
Diskrit. Algoritma yang umum digunakan adalah Fast
Fourier Transform (FFT). yaitu :
WD FT 1 2
 j kn
X (k )  n 0
y ( n)  e WDFT
0  k  WDFT
Dimana X(k) adalah transformasi fourier dari sinyal

y(n), k menunjukan indeks frekuensi bin dan WDFT
adalah panjang FFT.
Tentukan FFT dari X(n) = δ(n), δ(n-n0), an u(n)
10
Sinyal input
MFCC
LPC
11

SP Pertemuan 3

Diunggah oleh

Hak Cipta:

Format Tersedia

Anda mungkin juga menyukai

SP Pertemuan 3

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

SP Pertemuan 3

Diunggah oleh

Hak Cipta:

Format Tersedia

SPEECH PROCESSING

Jurusan Teknik Elektro

 Dengan Menggunakan Transformasi Fourier maka diperoleh

If T is too large, original signal can’t be

Dimana X(k) adalah transformasi fourier dari sinyal

Anda mungkin juga menyukai