Anda di halaman 1dari 25

PROTOTIPE PENGENALAN SUARA SEBAGAI PENGGERAK DINAMO STARTER

PADA MOBIL

Rezza Aditya/20405609
Fakultas Teknologi Industri, Jurusan Teknik Mesin Universitas Gunadarma
Jl. Margonda Raya No.100, Depok 16424
E-mail : jituspeed@yahoo.com
ABSTRAK
Pengolahan sinyal digital telah banyak digunakan dalam berbagai aplikasi, salah satunya
adalah teknik pengenalan suara. Penulisan ini bertujuan untuk membuat prototipe sistem yang
memanfaatkan teknologi pengenalan suara (speaker recognition) sebagai penggerak dinamo
starter pada mobil. Speaker recognition dibagi menjadi 2 bagian, yaitu speaker
verification dan speaker identification. Teknologi ini juga menggunakan dua metode, yaitu
MFCC (Mel Frequency Cepstrum Coefficients) untuk proses ekstraksi ciri dari sinyal suara
dan kedua metode DTW (Dynamic Time Warping) untuk proses pencocokan. Perancangan
prototipe pengenalan suara menggunakan modul Parallax Say It, modul mikrokontroller AVR
ATMega16, modul LCD 16x2, modul motor driver, Motor dc, baterai 12V. Proses
pengolahan sinyal suara dilakukan pada software Matlab untuk mengetahui cara kerja metode
MFCC dan DTW. Hasil pengujian memperlihatkan tingkat akurasi paling rendah adalah 80 %
dengan nilai threshold 3,5118, sedangkan tingkat akurasi tertinggi yaitu 85 % dengan nilai
threshold 5,3.

Kata Kunci

: Pengenalan Suara, MFCC, DTW, Mikrokontroler, Matlab.

1

(http://donupermana.wordpress.com/maka

1. PENDAHULUAN

lah/sistem-biometrik-absensi).
Dengan

adanya

Pada tugas akhir ini dibuat sebuah

kemajuan

teknologi dalam bidang pengolahan sinyal

prototipe

sistem

digital (Digital Signal Processing) telah

teknologi

pengenalan

membawa

Recognition) yang menggunakan modul

dampak

positif

dalam

suara

digital telah banyak digunakan dalam

pengolahan sinyal suara yang diteruskan

berbagai

contoh,

ke Mikrokontroler ATMega16. Sistem ini

aplikasi-aplikasi tersebut meliputi teknik

diharapkan akan mengenali suara dari

pengenalan suara, kompresi sinyal (data,

pengguna kemudian hasil dari pengenalan

gambar), dan juga televisi dan telepon

suara tersebut digunakan sebagai kata

digital (Dadang Gunawan dan Filbert

sandi dan perintah untuk menjalankan

Hilman Juwono, 2012).

dinamo starter/motor dc yang kemudian

Teknologi

pengenalan

salah

satu

teknologi

yang

tidak

biometrika

pemroses

akan menghidupkan mobil.

suara (speaker

recognition) merupakan

sebagai

(Speaker

Parallax

Sebagai

It

memanfaatkan

kehidupan manusia. Pengolahan sinyal

aplikasi.

Say

yang

2. LANDASAN TEORI

memerlukan biaya besar serta peralatan

2.1

khusus. Pada dasarnya setiap manusia

Dalam kehidupan sehari-hari, manusia

memiliki sesuatu yang unik/khas yang

melakukan berbagai jenis komunikasi

hanya dimiliki oleh dirinya sendiri. Suara

dengan sesama manusia, misalnya: body

merupakan salah satu dari bagian tubuh

language, berbicara (speech) dan lain-lain.

manusia yang unik dan dapat dibedakan

Diantara

banyak

dengan mudah. Disamping itu, sistem

dilakukan

oleh

biometrika suara memiliki karakteristik

(speech)

seperti, tidak dapat lupa, tidak mudah

informasi penting dan paling efektif dalam

hilang dan tidak mudah untuk dipalsukan

berkomunikasi.

karena keberadaannya melekat pada diri

tersebut

manusia

kesehatan,

sehingga

keunikannya

lebih

Konsep Dasar Pengenalan Suara

pembicara.

terjamin.

2

komunikasi
manusia,

memberikan

antara
emosi,

paling

yang

berbicara
banyak

Informasi-informasi
lain: gender, keadaan
serta

identitas

1. verification dan speaker Taxonomy pemrosesan dari akan seorang ditolak pembicara (dengan asumsi semakin kecil skor berarti kedua sampel suara dapat dilihat pada Gambar 2. suara Speaker recognition adalah suatu proses dibandingkan secara langsung dengan yang bertujuan mengenali siapa yang fitur-fitur seorang pembicara tertentu yang sedang berbicara berdasarkan informasi ada dalam sistem. Dalam tugas pembicara tersebut berdasarkan data yang akhir ini membahas mengenai pengolahan telah sinyal lebih verification melakukan perbandingan one membahas to one (1:1). yaitu pembicara tersebut diterima. Feature Input speech Feature extraction (MFCC) Match Pattern matching (DTW) Vector Speaker ID enrollment Decision Scores Speaker model Accept Reject Gambar 2.1 Taxonomi Pemrosesan Suara identitas dari proses seorang pembicara dengan membandingkan fiturfitur suara yang diinputkan dengan semua fitur-fitur dari setiap pembicara yang ada 3 . maka recognition dibagi menjadi 2 bagian. yaitu speaker speech recognition verification adalah sebelumnya telah proses diketahui identitas dan language recognition. Dalam arti bahwa fitur-fitur speaker spesifiknya recognition lagi diinputkan. Gambar dibawah adalah blok diagram dari speaker verification.Pengenalan suara dapat dikategorikan Speaker menjadi verifikasi seorang pembicara. semakin mirip). yang mana 3 bagian. Speaker dengan batasan tertentu (treshold). Bila hasil perbandingan yang terkandung dalam gelombang suara (skor) tersebut lebih kecil atau sama yang di-input-kan. bila tidak speaker maka identification. recognition.2 Blok Diagram Speaker Verification Speaker identification adalah mendapatkan Gambar 2. Speaker tentang speaker verification/dependent.

2. MFCC. Berbeda dengan pada speaker verification. Pengujian yang dilakukan technology. Gambar dibawah informasi penting yang dikandungnya. baik speaker recognition maupun speech untuk periode waktu yang cukup pendek recognition.dalam database.Tetapi menjadi beberapa parameter. 4 . Menghasilkan data Mereplikasi organ pendengaran manusia dalam melakukan persepsi terhadap sinyal suara. proses ini melakukan perbandingan one to many (1:N). b.2 MFCC (Mel Frequency Cepstrum Coefficients) MFCC (Mel Coefficients) Frequency merupakan Gambar 2. Metode ini digunakan untuk (sekitar 10 sampai 30 milidetik) akan melakukan feature menunjukkan extraction. tanpa menghilangkan informasi- tinggi (diatas 1000 Hz). sistem dimana untuk frekuensi rendah (dibawah 1000 dalam sinyal suara. Mampu untuk sesuai bila dilakukan akan dengan kata terus yang diucapkan. sebuah karakteristik sinyal suara proses yang mengkonversikan sinyal suara yang stationary. seminimal Hz) dan secara logaritmik untuk frekuensi mungkin. menangkap karakteristik suara yang sangat penting MFCC feature bagi pengenalan suara.3 Contoh Sinyal Suara Cepstrum salah satu metode yang banyak digunakan dalam Contoh dari sinyal suara dapat dilihat pada bidang speech gambar di atas. ini merupakan block diagram untuk c. atau dengan kata merupakan lain dapat menangkap informasi-informasi pendengaran penting signal suara akan di-filter secara linear yang terkandung extraction sebenarnya adaptasi dari manusia. Beberapa dalam periode waktu yang lebih panjang keunggulan dari metode ini adalah sebagai karakteristik signal suara berikut: berubah a.

Jika signal di- sampling kurang Spectrums Mel frequency warping dari Fast fourier transform 2 kali frekuensi Windowing maksimum sinyal yang akan di- Mel cepstrums sampling.2. Agar sinyal natural pemberian kode untuk tiap-tiap data sinyal dapat diproses oleh komputer. akurat pula data sinyal yang disimpan Sedangkan semua sinyal yang pada komputer. Proses sampling adalah suatu proses untuk mengambil data signal continue untuk setiap periode tertentu. Proses pengkodean adalah continue menjadi discrete. Proses kuantisasi adalah proses untuk 2. discrete atau sering sebagai istilah digital signal. proses kuantisasi dan proses pengkodean. Gambar 2.1 Konversi Analog menjadi Digital membulatkan Sinyal–sinyal yang natural pada umumnya bilangan-bilangan tertentu seperti sinyal suara ditentukan merupakan signal nilai terlebih data ke dalam yang telah dahulu. dapat oleh komputer diproses tetapi akan menghasilkan ukuran data hanyalah signal dikenal besar dan proses yang lama. yaitu frekuensi sampling (sampling Pembentukan Sinyal Digital bahwa 2.5 Proses berlaku aturan Nyquist. Cepstral liftering Aliasing adalah Feature extraction suatu efek dimana sinyal yang dihasilkan memiliki frekuensi Gambar 2.minimal harus 2 kali lebih tinggi dari Continuous speech Pre-emphasis Remove DC Decision frekuensi Frame Mel spectrums Discrete cosine trnsform maksimum yang akan sampling. maka akan timbul efek aliasing. maka harus yang telah terkuantisasi berdasarkan level diubah terlebih dahulu dari data signal yang ditempati. Semakin continue dimana memiliki nilai yang tidak banyak level yang dipakai maka semakin terbatas.2 rate) 5 Remove DC proses . diantaranya adalah proses sampling data.4 Blok Diagram untuk MFCC yang berbeda dengan sinyal aslinya. Hal itu dapat dilakukan melalui 3 proses.2. Dalam melakukan proses sampling data.

differentiator.............. Pada saat memproduksi y[n] = s[n]–αs[n-1]..... glottis manusia 6 . x[n] = sampel sinyal asli. terjadi dari ini dilihat pada gambar di bawah ini.3) voiced dimana: sound..... 2. N = panjang sinyal.....9 ≤ α ≤ 1. produksi suara.. Mengurangi sehingga pada H(z) = 1-αz 1... diatas dapat dijadikan sebagian first order b. . Filter Pada ini mempertahankan frekuensi-frekuensi distribusi energi tingi terlihat pada sebuah spectrum....0.. Formula noise dapat ratio kualitas sinyal...... = nilai rata-rata sampel sinyal asli. dan Namun ketika energi akustik tersebut mengurangkan nilai setiap sampel suara dikeluarkan dengan nilai rata-rata tersebut. adalah sekitar -6dB octave slope........ Tujuannya peningkatan sebesar +6 dB......2) meningkatkan Dimana 0...... sinyal.............3 Pre-Emphasis Filter Gambar 2.1) dimana: y[n] = sampel sinyal hasil proses remove DC.(2. Sehingga adalah mendapat normalisasi dari data sinyal yang terekam oleh microphone suara input. Dampak melalui bibir.(2. sebagai berikut: Menyeimbangkan spektrum dari voice sound.. yang gambar lebih diatas terlihat bahwa pada setiap frekuensi seimbang setelah umumnya tereliminasi pada saat proses diimplementasikan pre-emphasis filter.... dan α € R..Remove DC bertujuan untuk menghitung menghasilkan sekitar -12 dB octave slope.. (2..2. Bentuk yang paling umum digunakan Tujuan dari Pre-emphasis filter ini adalah dalam pre.6 Contoh dari Pre- Pre-emphasis filter merupakan salah satu Emphasis pada Sebuah Frame jenis filter yang sering digunakan sebelum sebuah sinyal diproses lebih lanjut...emphasis filter adalah sebagai sebagai berikut: berikut: a........... rata-rata dari data sampel suara.

4 Frame Blocking Panjang daerah overlap yang umum Karena sinyal suara terus mengalami digunakan adalah kurang lebih 30% perubahan sampai akibat adanya pergeseran 50% dari panjang frame. Efek di lain sisi. Selain itu.2. Aliasing adalah harus sepanjang mungkin untuk dapat sinyal baru dimana memiliki frekuensi menunjukkan frekuensi yang baik.5 Panjang frame yang digunakan sangat Proses mempengaruhi keberhasilan dalam analisa terjadinya kebocoran spektral (spectral spektral. artikulasi dari organ produksi vokal .y[n] = sinyal hasil pre-emphasis filter. filter. ukuran dari frame leakage) atau aliasing. proses ini umumnya dilakukan secara overlapping untuk setiap frame. 2. Panjang frame suara pada perbatasan perpotongan setiap frame. ukuran frame juga harus ini dapat terjadi karena rendahnya jumlah cukup pendek untuk dapat menunjukkan sampling rate. Sebuah fungsi window yang baik harus menyempit pada bagian main lobe dan melebar pada bagian side lobe-nya.2. Tetapi yang berbeda dengan sinyal aslinya.7 Bentuk Sinyal yang di window Frame Blocking terhadap diinputkan. Overlapping dilakukan untuk menghindari sinyal hilangnya ciri atau karakteristik harus diproses secara short segments (short frame). frame blocking dimana menyebabkan Windowing sinyal framing menjadi mengurangi dapat menyebabkan discontinue. Di satu sisi. 7 sinyal suara yang . kemungkinan Utuk terjadinya kebocoran spektral.nya. 2. maka hasil dari proses framing harus melewati proses window. yang biasa digunakan untuk pemrosesan sinyal adalah antara 10-30 milidetik. Proses frame ini dilakukan terus sampai s[n] = sinyal sebelum pre-emphasis seluruh sinyal dapat diproses. ataupun karena proses resolusi waktu yang baik. Berikut adalah representasi dari fungsi Gambar 2.

................ Fungsi window ini menghasilkan sinyal-sinyal diskrit dengan panjang yang sidelobe level yang tidak terlalu tinggi terhingga.5) dimana: dimana: N n = 0.. .....2. (kurang lebih -43 dB).... namun yang (DFT) paling sering digunakan dalam aplikasi DFT speaker hamming transformasi fourier yang berlaku untuk window.(2.6. selain itu noise terbentuk dari gabungan sinyal-sinyal yang dihasilkan pun tidak terlalu besar .(2.... merupakan kelipatan 2 2.... i = frame Bila hubungan resolusi berbanding waktu yang digunakan tinggi.. maka resolusi frekuensi = fungsi window N adalah size.1.. yang memungkinkan untuk melakukan analisa terhadap spectral properties dari sinyal yang diinputkan.....M-1 diproses M = panjang frame = jumlah sampel yang akan = nilai sampel sinyal k 2... Representasi dari 8 ( diskrit..........6 Analisis Fourier dimana Analisis fourier adalah sebuah metode = variabel akan frekuensi bernilai . sinusoidal yang menjadi satu yang dapat Fungsi Hamming window adalah sebagai dirumuskan sebagai berikut: recognition adalah merupakan perluasan Semua sinyal dari periodik berikut: ..1 Discrete Fourier Transform Ada banyak fungsi window. yang dihasilkan akan semakin rendah. Hubungan antara frekuensi dan windowing waktu = nilai sampel dari frame sinyal ke terbalik..(2......4) Dalam spectrogram terdapat hubungan dimana: = nilai sampel sinyal yang sangat erat antara waktu dan hasil frekuensi...spectral properties sering disebut sebagai spectrogram... ....2..6) ..

Hal itu mudah dibandingkan data pada domain disebabkan waktu. algoritma fast fourier transform (FFT) suara. Data 9 . maka hanya N/2 data yang suara.Dengan rumus diatas.8 Domain Waktu Menjadi suara. domain waktu menjadi data spektrum di domain frekuensi.2 Fast Fourier Transform (FFT) sinyal sangat Perhitungan DFT secara langsung dalam menguntungkan karena data pada domain komputerisasi dapat menyebabkan proses frekuensi dapat diproses dengan lebih perhitungan yang sangat lama.2. 2. hal inilah dimana karena dengan perkalian FFT DFT. Hal inilah tujuan Namun karena hasil dari DFT adalah penggunaan analisa fourier pada data simetris.2. yaitu x[m] sampai x[m+N-1]. Filterbank adalah salah satu dari bentuk filter yang dilakukan dengan tujuan untuk mengetahui ukuran energi dari frequency band tertentu dalam sinyal Gambar 2.7 Mel Mel Frequency Wrapping Freqency Wrapping umumnya dilakukan dengan menggunakan Filterbank. Untuk pemrosesan 2. dibutuhkan keras lemahnya suara tidak seberapa kompleks. karena pada domain frekuensi. tetapi untuk keperluan Untuk mendapatkan spektrum dari sebuah MFCC. Hal itu dapat dilakukan dengan berpengaruh. bilangan menghilangkan proses perhitungan yang kembar dalam DFT. filterbank harus diterapkan dalam sinyal dengan DFT diperlukan N buah domain frekuensi. sampel data berurutan pada domain waktu.6. frekuensi pembentuknya. yaitu untuk merubah data dari diambil sebagai spektrum. Filterbank dapat diterapkan baik Domain Frekuensi dalam domain waktu maupun pada domain frekuensi. suatu sinyal suara tersebut dimasukkan dalam fungsi DFT dalam domain waktu dapat kita cari maka akan menghasilkan N buah data.

. PCA adalah metode statik dimana: N klasik yang digunakan secara luas dalam = jumlah magnitude spectrum analisa data dan kompresi.. = seringkali untuk menghitung DCT.7) Namun hasil dari DCT mendekati PCA (principle component analysis). Mel frequency scale adalah linier frekuensi scale pada frekuensi dibawah 1000 Hz dan merupakan logarithmic scale pada frekuensi diatas 1000 Hz. Cosine Transform (DCT) ar Filterbank Filterbank Discrete DCT merupakan langkah terakhir dari representasi melakukan filter proses utama MFCC feature extraction... Pada dasarnya digunakan dalam filterbanks.. pada Berikut adalah formula yang digunakan frekuensi j (1 ≤ i ≤ M). Hal inilah yang S[j] = magnitude spectrum menyebabkan pada koefisien filterbank dalam proses MFCC feature extraction. Frekuensi yang sebenarnya (dalam Hz) dalam sebuah sinyal akan diukur manusia secara subyektif dengan menggunakan mel scale... Gambar 2. Konvolusi dapat Konsep dasar dari DCT adalah dilakukan dengan melakukan multiplikasi mendekorelasikan mel spectrum sehingga antara spektrum sinyal dengan koefisien menghasilkan representasi yang baik dari filterbank.. konsep DCT sama dengan inverse fourier transform.. = jumlah channel dalam filterbank.. M DCT menggantikan inverse fourier transform frekuensi j...... .9 2.. 10 .2..(2.....8 Magnitude dari Rectangular dan Triangul menggunakan konvolusi dalam terhadap sinyal.. Berikut ini adalah rumus yang properti spektral lokal...Presepsi manusia terhadap frekuensi dari sinyal suara tidak mengikuti linier scale.

..8) dimana: .......9) = keluar dari proses filterbank pada dimana: index k.9 Cepstral Liftering perekaman yang terjadi seringkali berbeda Hasil dari proses utama MFCC feature durasinya... Hal berdasarkan dilakukan baik untuk pattern matching... proses matching antara sinyal uji dengan cepstral liftering menjadi salah satu sinyal referensi (template) seringkali tidak standar teknik yang diterapkan untuk menghasilkan nilai yang optimal... meminimalisasi sensitifitas tersebut.2. seringkali proses perekaman terjadi dalam sedangkan bagian high order-nya sangat durasi yang berbeda.(2.... diucapkan sama. koefisien ke nol ini tidak reliable terhadap 2. karena.3 speaker Pencocokan dengan Metode DTW (Dynamic Time Warping) recognition... 11 ... biarpun kata atau kalimat yang extraction memiliki beberapa kelemahan... diharapkan..(2. Cepstral liftering menghaluskan spektrum Koefisien ke nol dari DCT pada umumnya hasil dari main processor sehingga dapat akan dihilangkan.. Satu masalah yang cukup rumit dalam pengenalan wicara adalah poses 2. Oleh karena itu.. Sebagai akibatnya sensitif terhadap noise.. penelitian-penelitian lebih yang pernah dilakukan.....Cepstral liftering dapat dilakukan dengan mengimplementasikan fungsi window terhadap cepstral features.. = jumlah koefisien L = jumlah cepstral coefficients... walaupun sebenarnya digunakan mengindikasikan energi dari frame sinyal tersebut.. Bahkan untuk satu suku Low order dari cepstral coefficients sangat sensitif terhadap spectral kata yang sama atau vokal yang sama slope. yang N= index dari cepstral coefficients....

. dihitung dengan rumus: Total similarity cost yang diperoleh dengan algorithm ini merupakan sebuah indikasi seberapa bagus sample dan template ini memiliki kesamaan.. Keunggulan DTW dari metode jarak yang lainnya adalah mampu menghitung jarak dari dua vektor data dengan panjang berbeda. Prinsip dasarnya adalah dengan Alignment Asli dari 2 Sequence (b) memberikan sebuah rentang „steps‟ dalam Alignment dengan DTW ruang (dalam hal ini sebuah frame-frame waktu dalam sample. jalur pembengkokkan Ilustrasi pencocokan untuk mengakomodasi perbedaan waktu antara proses perekaman saat pengujian dengan yang tersedia pada template sinyal Gambar 2. antara dua data time series. gambar dibawah ini. yang selanjutnya akan dipilih best-matching .10 Pencocokan Sequence (a) referensi..10) template. Teknik ini ditujukan dari tersebut. Jarak DTW dapat (kemiripan) antara time frame yang lurus.... Kolom dengan nilai dinamakan matriks DTW (Dynamic Time Warping) jarak terjumlahkan......Sebuah teknik yang cukup Jarak DTW diantara dua vektor populer di awal perkembangan teknologi dihitung pengolahan sinyal wicara adalah dengan optimal (optimal warping path) dari dua memanfaatkan sebuah teknik dynamic- vektor programming yang juga lebih dikenal dengan metode DTW ditunjukkan pada sebagai Dynamic Time Warping (DTW). frame-frame waktu Dari beberapa teknik yang digunakan dalam template) dan digunakan untuk untuk menghitung DTW. Berikut ini adalah adalah metode untuk menghitung jarak contoh matriks jarak terjumlahkan... salah satu yang mempertemukan menunjukkan local lintasan yang paling handal adalah dengan metode match terbesar pemrograman dinamis..(2. 12 .

7805 (-) (+) menghidupkan mobil. Diagram 3.1 Daftar alat/modul Alat/modul DB4 Saklar modul yang dilampirkan pada tabel 3.1 blok dari prototipe alat pengenalan suara Perancangan Alat ini adalah sebagai berikut: Perancangan suatu alat yang Motor Driver akan dibuat merupakan suatu tahapan yang sangat penting dalam membuat P2(Output1) L298 VDC GND Dinamo Starter PA5 DB5 DB6 DB7 VDD VSS Regulator (+) (+)+12V (-) Baterai 12V Gambar 3.11 Ilustrasi Matriks Jarak Semua komponen dipasang sesuai dengan Terjumlahkan (Cumulative Distance rangkaian yang digunakan. Kemudian Matrix) antara 2 Vektor rangkaian tersebut diuji coba dengan menggunakan multimeter. karena dengan tersebut PC5 PC4 P3(Output2) suatu program ataupun melanjutkan ke perencanaan Mikrokontroler P5(Input1) P7(Input2) P9(Vss) P4(Vs) P8(GND) Jumlah 1 Parallax say it 1 2 Mikrokontroller 1 13 .1 No. untuk mengetahui apakah rangkaian tersebut 3. membutuhkan E PA4 +5V (+) suatu alat pengenalan suara untuk ini PA2 PA7 PB0(RX) PB1(TX) P10(VCC) P11(GND) PB2 RX TX Led (-) yang penulis buat adalah pengendalian suara R/W diharapkan maksimal.1 Blok diagram sistem pengenalan beberapa Dan untuk konsep desain seperti gambar dibawah ini: Tabel 3. dalam perancangan sistem alat RS PA1 ATmega16 mendapatkan hasil yang baik dan Pembuatan LCD 16x2 PA0 PA6 Parallax Say It langkah selanjutnya.AVR ATmega16 3 LCD 16x2 1 4 Motor driver 1 5 Motor dc 1 6 Baterai 12 V 1 Gambar 2. PERANCANGAN sudah terhubung dengan benar.

PD0 (RXD) berfungsi untuk menerima data dari modul Parallax 3. pin Dinamo Starter PD0 Gambar 3. 14 it dengan .Suara Manusia Modul Parallax Say It Baterai 12V ATmega16 Modul LCD 2x16 Karakter Gambar 3.1 Rangkaian Modul Say It.3 adalah berisi prinsip dan PD1 digunakan komunikasi serial antarmuka UART untuk menggunakan (Universal Asynchronous Receiver/Transmitter) yang kerja secara keseluruhan dari rangkaian berfungsi untuk melakukan pertukaran yang dibuat. Sehingga keseluruhan blok data dari alat dapat membentuk suatu sistem atau Konfigurasi yang dapat bekerja atau difungsikan komunikasi komunikasi dua arah. karena seluruh modul proses input dan output-nya dilakukan parallax say mikrokontroler ATMega16: pada blok rangkaian ini. dan PD1 (TXD) berfungsi untuk Mikrokontroler Rangkaian mikrokontroler mengirim data ke modul Parallax Say It. merupakan Berikut adalah diagram blok koneksi blok kendali dari alat.4. 8 bit data.3 Pin-pin ATMega16 kemasan Motor Driver 40 pin Pada mikrontroler AVR ATMega16.2 Konsep desain Dalam Gambar 3. No sesuai dengan perancangan. Pada penelitian ini digunakan mikrokontroler berbasis AVR 8-bit ATMega16 dengan kemasan 40 pin DIP (Dual Inline Package) seperti yang ditunjukkan pada Gambar 3. parity. serial kedua modul adalah 9600 baud. 1 bit stop.1.

Semua Ada penundaan minimum sebelum setiap pada sebuah rangkaian Gerak motor dc akan ditentukan dari input yang diberikan pada L298.0) LED PIND. pada jalur TX dan RX. dan dapat dirubah dalam rentang 0-9 ms. yaitu sebuah ic h-bridge motor TX.5 Skematik Modul karakter. dipilih diantara huruf kecil. dua buah resistor 10 ohm tambahan. menerima jawaban pada jalur ke komponen-komponen berikut. 100 ms-1 s. yang Sebuah rangkaian driver motor dc terdiri mencakup berbagai huruf kapital. dan dua buah kapasitor 100 nF. Mikrokontroler masing-masing di jalur TX dan RX.Terdapat enam 10-90 ms. delapan buah dioda RX dalam bentuk byte status yang diikuti 1N4002.ATmega16 Parallax Say It ERX ETX 3. dengan nol atau lebih byte argumen it Rangkaian Modul Driver Motor jalur input pada L298 yang terdiri atas jenis input data arah pergerakan motor dan 15 . Pengaturan pada kemudian pergerakan motor dc pada mobil.2 Perintah argumen atau rincian DC status. tergantung menjadi tersebut driver motor yang akan mengendalikan jalur RX(PIND.2 VCC GND mikrokontroler yang dipakai apakah lambat atau cepat.1) RX(PIND.4 Koneksi modul Parallax Say It dengan modul ATMega16 Protokol komunikasi hanya menggunakan karakter ASCII (American Standard Code for Information Interchange) yang dibagi dalam dua kelompok utama:  Perintah dan status Gambar 3.3V – 5V GND TX(PIND.1.0). atas Setiap perintah yang dikirim pada jalur sebagai r-sense. Gambar 3.  3. oleh nol atau argumen lebih. pengaturan awalnya 20 ms penundaan komponen dirangkai byte yang dikirim dari modul parallax say mikrokontroler sebagai driver L298.

7 Skematik modul LCD 3. Jenis LCD yang perancang menggunakan karakter ASCII. Untuk penampil perintah suara. Pemrograman lain menggunakan komunikasi serial antar pada LCD ini menggunakan mode 4-bit. melalui variasi lebar pulsa yang diberikan oleh mikrokontroler sebagai input PWM. Modul ini juga dapat ditampilkan dengan LCD 16x2 ini dapat dan memerlukan program khusus pada IC melalui USB menggunakan software GUI Mikrokontroler untuk dapat memerintah (Graphical User Interface) yang mudah LCD 16x2 menampilkan karakter-karakter digunakan. maka bahkan dapat digunakan pada bahasa digunakan LCD 16x2 sebagai penampil apapun. tersebut. namun mempunyai tampilan yang lebar dengan kontras yang tinggi sehingga dapat 16 dihubungkan dengan Protokol komputer komunikasi .4 Rangkaian Modul Pengenalan Suara Parallax Say It merupakan modul voice Gambar 3. Gambar 3.1.1.6 Skematik Modul Motor recognition Driver multi-fungsi. Komunikasi dengan perangkat karakter angka dan huruf. Dibawah ini adalah Modulation). Modul ini mendukung hingga 32 custom Speaker 3.input untuk PWM (Pulse Width dilihat dengan jelas. Dibawah gunakan adalah modul LCD dot matrik ini adalah gambar skema rangkaian modul dengan konsumsi daya yang rendah. muka UART (Universal Asynchronous Jadi bentuk pengukuran yang dilakukan Receiver/Transmitter).3 Rangkaian Modul LCD Dependet (SD) trigger atau perintah. Kecepatan motor akan diatur gambar rangkaian modul LCD. Dibawah ini adalah gambar rangkaian modul driver motor dc. Parallax Say It.

1 Voice Recording Pengambilan data suara dilakukan dengan perekaman suara pada frekuensi sampel (Fs) 16 KHz selama dua detik.1 merupakan sinyal suara kata “jitu‟. discrete Gambar 3. Adapun tahapan-tahapan proses MFCC yang dilakukan adalah: voice recording.1 Sinyal Suara Asli Kata “Jitu” 4. remove dc. pre-emphasis. windowing.1 Pengolahan Sinyal Suara Tujuan dari proses pengolahan Tempat yang digunakan untuk proses suara adalah untuk mendapatkan ciri atau pengambilan suara dilakukan pada kondisi 17 . Gambar 3. frame blocking.8 Skematik modul Parallax consine transform dan cepstral liftering.parameter dari sinyal suara.1. filterbank. fast fourier transform. Gambar 4. Say It 3. PEMBAHASAN 4. proses MFCC diimplementasikan dengan menggunakan toolbox yang telah tersedia.3 Hasil Perancangan 4. Pada penelitian ini. yaitu speech and audio processing toolbox yang dikembangkan oleh Roger Jang pada tahun 1996. remove silent.9 Hasil perancangan prototipe pengenalan suara sebagai penggerak dinamo starter pada mobil Gambar 4. Proses pengolahan sinyal suara dilakukan pada software Matlab.

data ini tidak dapat berjalan dengan Maka dari itu proses remove silent optimal seperti yang terlihat pada Gambar diperlukan untuk menghilangkan frame- 4. 4. silent yang terdapat dalam data suara sangat Apabila noise yang terdapat pada suara mempengaruhi keberhasilan terlalu besar.4. karena bila noise yang terdapat pada ruangan terlalu besar dapat menyulitkan saat proses pembersihan data suara. Namun Gambar 4.4 Data Suara dengan Remove Silent yang Tidak Optimal 18 .1.3 Data Suara setelah Proses berdasarkan Remove Silent penelitian yang telah dilakukan. Noise juga dapat disebabkan dan tidak dari gangguan distorsi pada gelombang diucapkan.2 Remove Silent Langkah ini tidak termasuk dalam proses utama MFCC. Hal ini disebabkan sistem tidak frame yang mengandung silent seperti mampu pada Gambar 4. Proses yang dilakukan gelombang suara adalah mendeteksi mulai sinyal suara awal lingkungan. maka proses pembersihan sistem dalam melakukan pengenalan. lain.2.ruangan dengan tingkat kebisingan yang rendah. Hasil data suara dari proses sinyal listrik AC (Alternate Current) yang remove silent dapat dlihat pada Gambar masuk melalui power battery atau device 4.3.2 Proses Remove Silent Gambar 4. berakhir tingkat ketika sudah membedakan dengan lagi noise antara dari Gambar 4.

6 Proses Gambar 4.5.3 Remove DC Proses remove melakukan 4. Gambar 4.4 Pre-Emphasis Filtering Frame Blocking Setelah melewati proses remove dc.5 DC bertujuan normalisasi terhadap Frame Blocking untuk Pada penelitian ini sinyal suara dipotong data sepanjang 256 Hz pada setiap pergeseran sampel suara yang dimasukkan. dinamakan frame.5 Data Suara setelah Proses Remove DC Gambar 4. Setiap potongan tersebut pada Gambar 4.1.1. Hasil data 128 Hz dengan frekuensi sampling suara dari proses remove DC dapat dlihat sebesar 8737 Hz.4.8 Data Suara setelah Proses Frame Blocking (Frame Pertama) 4.1. Berikut adalah hasil dari proses frame blocking untuk kata “jitu”. Gambar dibawah merupakan hasil dari proses pre-emphasis filtering untuk kata “jitu”. Jadi setiap satu frame terdapat 256 sampel dari 8737 sampel yang ada. selanjutnya data sampel suara akan memasuki proses utama MFCC yaitu preemphasis filtering.6 Data Suara setelah Proses Windowing windowing mengurangi Pre-Emphasis Filtering efek dilakukan diskontinuitas untuk dari proses frame blocking terutama pada 19 . Gambar 4.1.7 Data Suara setelah Proses 4.

11 Data Suara setelah Proses dibawah merupakan hasil dari proses FFT Filterbank (Frame Pertama) untuk kata “jitu”.7 FFT (Fast Fourier Transform) Dalam penilitian ini proses FFT akan mengubah sinyal suara ke dalam domain frekuensi dengan 256 titik. 4.1.9 DCT (Discrete Cosine Transform) Proses DCT merupakan langkah terakhir dari proses utama MFCC. Gambar dibawah ini adalah hasil dari proses filterbank untuk kata “jitu”.1.1. Gambar 4. Skala frekuensi filterbank adalah sama dengan konsep pendengaran manusia sehingga skala frekuensi sering dijadikan parameter ekstraksi dalam pengolahan sinyal suara. KHz.9 Data Suara setelah Proses Windowing (Frame Pertama) 4. Gambar Gambar 4. Hasil dari proses ini adalah mel frekuensi cepstrum koefisien yang merupakan hasil dari Gambar 4.10 Data Suara setelah Proses proses MFCC.8 Filterbank 13 koefisien untuk masing-masing frame. Dalam penelitian ini panjang dari filterbank adalah 20 setiap frame.ujung-ujung frame. 20 . Gambar dibawah ini skala linear pada frekuensi kurang dari 1 adalah hasil dari proses windowing untuk KHz dan logaritmik diatas frekuensi 1 kata “jitu”. Konsep pendengaran telinga manusia Gambar dibawah ini adalah hasil dari terhadap suara atau bunyi adalah dalam proses DCT untuk kata “jitu”. Panjang berikut adalah FFT (frame pertama) data koefisien MFCC untuk kata “jitu” dengan jumlah koefisien MFCC sebanyak 4.

12 Data Suara setelah Proses DCT (Frame Pertama) Gambar 4.1. Gambar dibawah yang dibuat dalam penelitian ini dilakukan ini adalah hasil dari proses cepstral menggunakan liftering untuk kata “jitu”.Gambar 4. 4.3 Pengujian Pengujian ini dilakukan dengan menggunakan data sampel dari 5 orang.13 Data suara setelah proses cepstral MFCC dari suara uji yang masuk.2 MFCC DTW (Dynamic Time Warping) sehingga diharapkan dapat Pengenalan Sinyal Suara dengan meningkatkan akurasi program dalam Pengujian terhadap sistem verifikasi suara melakukan pengenalan. Dengan komposisi 1 orang laki-laki 21 .14 Hasil Ekstrasi Ciri Ucapan “Jitu” Metode MFCC 4. Jarak yang dihitung adalah jarak antara nilai koefisien cepstral MFCC yang ada di template referensi dan menghitung jarak template referensi dengan nilai koefisien Gambar 4.10 Cepstral Liftering Cepstral liftering berfungsi untuk menghaluskan spektrum hasil dari proses 4. ucapan kata “jitu”. melakukan metode proses DTW perhitungan dengan jarak dengan membandingkan dua buah sampel yang diperoleh dari proses ekstraksi ciri. cepstral liftering (frame pertama) Dari proses DTW ini akan diperoleh suatu Gambar dibawah ini adalah hasil nilai atau skor hasil perbandingan antara keseluruhan ekstraksi ciri pada 67 frame dua buah sampel.

Pengguna diambil data sebanyak 12 data sampel dengan 2 data sampel sebagai template referensi dan 10 data sampel Gambar 4.15 Grafik Hasil Skor sebagai data uji. tabel ataupun grafik untuk mempermudah Tabel 4. Dibawah ini adalah grafik distribusi 4.sebagai pengguna. Untuk bukan pengguna Pengguna Asli dan Palsu setiap orang diambil data sebanyak 10 data sampel sebagai data uji. Sistem (FRR dan FAR) Pengujian ini bertujuan untuk mengetahui nilai threshold yang akan digunakan untuk sistem dalam melakukan verifikasi.3. Masing-masing orang mengucapkan satu buah kata “jitu”. diantaranya adalah:  Menentukan nilai threshold menggunakan grafik unjuk kerja sistem (FRR dan FAR). sehingga 4. 3 orang laki-laki dan 1 orang perempuan. Hasil 22 . Dibawah ini adalah tabel grafik unjuk kerja sistem (FRR dan FAR) skor hasil pencocokan data uji dengan atau disebut juga grafik ROC.1 jumlah sampel yang ada 2+10+(4x10) = Hasil Pengujian Setiap hasil pengujian akan ditampilkan 52 data sampel. Hasil template referensi menggunakan metode pengujian akan disajikan dalam bentuk DTW.1 Skor Pencocokan Data Uji analisa.3.13.1 Menentukan probabilitas skor pengguna (pengguna sah Nilai Threshold Menggunakan Grafik Unjuk Kerja dan pengguna tidak sah). dengan Template Referensi Ada dua pengujian ucapan kata “jitu” yang dilakukan dalam penelitian ini.1.  Menentukan nilai threshold menggunakan persamaan 2.

diperoleh ketika dua ucapan yang FRR FAR GAR (%) (%) (%) 20 10 0 5 85 100 Akurasi Sistem (%) 80 85 sama (“jitu”) digunakan untuk template referensi sistem untuk setiap 5. Jadi nilai threshold-nya adalah FAR).5. maka akan Gambar 4.3 2. Skor hasil beberapa kesimpulan: pencocokan adalah 2. GAR dan adalah 5.2 Nilai FRR. 4.5118 maka pengguna dinyatakan sah. PENUTUP pengguna. Dalam pengujian ini nilai threshold yang sedangkan nilai FRR akan turun. bila tidak.4 Analisa Hasil Dari hasil penelitian dengan menentukan nilai threshold pencocokan. 1. dapat ditarik menggunakan metode DTW.1.3 dengan tingkat kesalahan 7%. 4.1 tersebut dilakukan proses pencocokan Kesimpulan Berdasarkan hasil penelitian. 3. Dibawah didapat adalah tabel nilai FRR.5118. GAR dan Menggunakan Persamaan 2. FAR.16 Kurva Karakterisitik didapatkan False Aceptance Rate (FAR) Kinerja Sistem (FRR dan FAR) dan False Reject Rate (FRR).2 Menentukan Nilai Threshold Tabel 4.3.5118 5.13. Dibawah ini adalah hasil pencocokan template referensi di hasil grafik unjuk kerja sistem (FRR dan kali 1. Nilai FAR akan naik apabila threshold dinaikkan.pengujian dengan melihat titik pertemuan Untuk menentukan nilai threshold skor antara FRR dan FAR. FAR. Ini berarti bahwa jika skor data uji ≤ 3. akurasi sistem dari hasil threshold yang digunakan pada penelitian ini. Dari dua ucapan yang sama 5. Hasil pengenalan 23 pengujian suara sebagai prototipe penggerak . maka pengguna dinyatakan tidak sah.13 Akurasi Sistem Dalam penilitian ini menemukan bahwa hasil terbaik untuk menentukan Threshold nilai threshold menggunakan persamaan 3.3412.

4.petra. diperoleh sistem pengendalian yang lebih 2. Metode Dynamic Time Warping Putra.edu.au:8080/adt- root/uploads/approved/adt- 24 .gu. 4. 2009. dapat g_2834. CodeVisionAVR. Saran dan Mikrokomputer. Tingkat keberhasilan sistem Rangkuti. dan karakteristik suara yang sangat penting sebagainya. http://dewey. menghasilkan data seminimal mungkin dan mereplikasi organ DAFTAR PUSTAKA pendengaran manusia dalam melakukan persepsi terhadap sinyal suara 1.html. verifikasi tergantung nilai threshold yang 2011. Informatika. Dengan Pemrograman Matlab. 2. Teknnik Digital Mikroprosesor 5. wiper.id/jiunkpe_d http://www4. dapat digunakan untuk membandingkan 3. berikut : 6. efisien. digunakan.ac. Yogyakarta. Filbert Hilman. bahwa alat telah bekerja dengan baik dan dapat bergerak sesuai dengan perintah yang menggunakan diharapkan. bagi pengenalan suara. Lukas. Willa. Yogyakarta. 2012. antara lain adalah sebagai 2012. 3. Dari penelitian ini ada beberapa saran yang 5. Metode Mel Frequency Ceptrums Pengiriman data ke mikrokontroler dikembangkan wireless. Diakses tanggal: 3 April digunakan untuk penelitian selanjutnya. Penambahan perintah pengenalan untuk ekstraksi fitur dalam pengenalan suara untuk mengontrol perangkat lain suara karena mampu untuk menangkap pada mobil seperti lampu. dengan sehingga Coefficients adalah metode yang baik 2. Darma. Sistem Biometrika. Graha fitur Ilmu. Bandung. Bandung. dua buah fitur suara hasil dari proses Mikrokontroller Atmel AVR: Simulasi dan MFCC. 2010. Praktek Menggunakan ISIS Proteus dan 5. sinyal suara.dinamo starter pada mobil menunjukkan 1. Pengolahan Sinyal Digital Proses pengenalan suara sensitif terhadap kebisingan mempengaruhi karena proses ekstraksi dapat Dadang Gunawan dan Juwono.2 Syahban. Informatika. Andi.

com/suppor t/docs/80-0206-W.eepis-its. http://neural.sensoryinc.itb. 13.1. http://www.edu. 11.id/elektron/?p= 32. 14. Diakses tanggal: 12.fi/pub/PhLic/2004_ PhLic_Kinnunen_Tomi.pdf.pdf. Diakses tanggal: 4 April 2012.ee.ac.ch/~hunkeler/ds p/minipro2. Diakses tanggal: 5 April 2012.com/Portals/0/ Downloads/docs/prod/comm/30080SayItModule-v1.edu/daisyfan/.p df.QGU20040831. Diakses tanggal: 5 April 2012.com/Images/doc 2466. 7.edu/1445/1/[E- D303-3]_pp.tw/jang/b ooks/audioSignalProcessing/.ufl.pdf. 25 .241248_Pengkodean_Warna_Iris_Mata.cs. 15. Diakses tanggal: 4 April 2012.epfl. http://icwww. Diakses tanggal: 9 April 2012.pdf.cs. http://www. ftp://ftp. http://hme.nthu. http://repo.115646/public/02Whole. Diakses tanggal: 3 April 2012. 9. Diakses tanggal: 8 April 2012.uef. Diakses tanggal: 3 April 2012. 10.pdf.atmel.parallax. http://plaza. 8.pdf. http://www. Diakses tanggal: 5 April 2012.