2017 (U) Proposal Tesis V02 Fix

PROPOSAL TESIS
PENGENALAN UCAPAN MENGGUNAKAN METODE

K-NEAREST NEIGHBOR (KNN) DAN MEL-FREQUENCY CEPSTRUM
COEFFICIENT (MFCC)
Disusun oleh:
Nama : Rofiuddin
NIM : 14.77.0196
Konsentrasi : Sistem Informasi
PROGRAM STUDI S2 TEKNIK INFORMATIKA

PROGRAM PASCASARJANA UNIVERSITAS AMIKOM YOGYAKARTA
YOGYAKARTA
2017
HALAMAN PERSETUJUAN
PENGENALAN UCAPAN MENGGUNAKAN METODE

K-NEAREST NEIGHBOR (KNN) DAN MEL-FREQUENCY CEPSTRUM
COEFFICIENT (MFCC)
SPEECH RECOGNITION WITH K-NEAREST NEIGHBOR (KNN)

AND MEL-FREQUENCY CEPSTRUM COEFFICIENTS (MFCC) METHOD
Dipersiapkan dan Disusun oleh
Rofiuddin
14.77.0196
Telah disetujui oleh Tim Dosen Pembimbing Tesis

Pada Tanggal 0 Namabulan 2017
Pembimbing Utama Pembimbing Pendamping
Prof. Dr. Ema Utami, S.Si, M.Kom

NIK. 190302037 NIK.
ii
1. LATAR BELAKANG MASALAH
Pengenalan ucapan (speech recognition), merupakan bentuk dari
kecerdasan buatan dalam bidang ilmu komunikasi yang menggunakan pengolahan
sinyal (signal processing). di zaman modern seperti saat ini, tentu tidak asing lagi
dengan teknologi Cortana, Siri, Google Now, robot Asimo dari Honda, system
keamanan berbasis suara, dan lain-lainnya. Semuanya merupakan aplikasi hasil
riset tentang pengenalan ucapan. Teknologi tersebut memanfaatkan keunikan suara
manusia yang dapat dibedakan dengan mudah. Aplikasi dirancang agar dapat
memverifikasi atau membuktikan ucapan yang diberikan. Analisis sinyal atau
ekstraksi ciri sinyal ucapan dilakukan untuk mendapatkan data berupa magnitudo.
Pengenalan ucapan telah di teliti lebih dari 80 tahun, dan selama periode
tersebut terdapat 4 generasi pendekatan, dan generasi ke 5 sedang dalam
perumusan. Pada tahun 2001, pengenalan ucapan telah mencapai akurasi 80%, dan
tidak ada kemajuan lebih lanjut hingga 2010. (Swamy & Ramakrishnan, 2013)
Untuk membuat sebuah system pengenalan sinyal ucapan, maka perlu
dilakukan pembelajaran terhadap fitur atau ciri dari suatu sinyal. Terdapat dua
metode untuk melakukan ekstraksi sinyal ucapan, yaitu metode Linear Predictive
Coding (LPC) dan metode Mel-Frequency Cepstrum Coefficients (MFCC).
Ekstraksi ciri sinyal ucapan dalam penelitian ini menggunakan metode Mel
Frequency Cepstrum Coefficients (MFCC).
Mel Frequency Cepstrum Coefficients (MFCC) adalah teknik untuk
mengalisis sinyal wicara yang sangat baik dalam mempresentasikan sinyal. Cara
kerja MFCC didasarkan pada perbedaan frekuensi yang di tangkap oleh telinga
1
manusia, sehingga mampu mempresentasikan sinyal suara sebagaimana manusia
mempresentasikannya. Hasil analisis tersebut selanjutnya dijadikan data set dalam
pengklasifikasian (Mada Sanjaya 2016). MFCC didasarkan atas variasi bandwidth
kritis terhadap frekuensi pada telinga manusia yang merupakan filter yang bekerja
secara linier pada frekuensi rendah dan bekerja secara logaritmik pada saat
frekuensi tinggi. Filter ini digunakan untuk menangkap karakteristik fonetis penting
dari sinyal ucapan. Untuk meniru kondisi telinga, karakteristik ini di gambarkan
dalam skala Mel-Frequency yang merupakan frekuensi rendah dibawah 1000 Hz,
dan frekuensi logaritmik di atas 1000 Hz (Setiawan, Hidayatno, & Isnanto, 2011).
Selanjutnya metode yang diguanakan untuk mengklasifikasi pada penelitian ini
adalah K-Nearest Neighbor (KNN).
K-Nearest Neighbor (KKN) adalah salah satu metode yang paling popular
untuk pengenalan pola. Banyak peneliti menemukan bahwa KNN mampu
menyelesaikan kinerja yang sangat baik dalam penelitian mereka pada rangkaian
data yang berbeda. KNN merupakan metode pengelompokan data (data clustering)
baru berdasarkan jarak data tersebut ke beberapa data atau tetangga (neighbor)
terdekat. Dalam hal ini jumlah tetangga terdekat ditentukan oleh pengguna yang di
nyatakan dengan k (S. Budi, 2007).
Diharapkan dalam penelitian ini yang berjudul “Pengenalan Ucapan
Menggunakan Metode K-Nearest Neighbor (KNN) dan Mel Frequency Cepstrum
Coefficients (MFCC)” dapat dicapai tujuan yaitu melakukan analisis pengenalan
ucapan dan memverifikasi ucapan dengan sangat cepat dan tepat dengan
menggunakan metode KNN dan MFCC, sehingga mampu meningkatkan efisiensi
2
pengenalan ucapan dan memberikan keputusan dengan target yang telah di
tentukan.
2. RUMUSAN MASALAH
Berdasarkan latar belakang penelitian, yang menjadi masalah utama dalam
penelitian ini adalah bagaimana menerapkan metode K-Nearest Neighbor (KNN)
dan Mel Frequency Cepstrum Coefficients (MFCC) pada proses analisis pengenalan
ucapan.
3. BATASAN MASALAH
Beberapa hal yang menjadi batasan masalah dalam penelitian ini adalah:
a. Penelitian ini fokus pada pengenalan ucapan yang didapat dari hasil ekstraksi
ciri (magnitudo) dengan menggunakan metode Mel-Frequency Cepstrum
Coefficients (MFCC) dan kemudian di klasifikasi menggunakan metode K-
Nearest Neighbor (KNN).
b. Data set terdiri atas 4 variable ucapan yaitu “kanan, kiri, depan, dan belakang”
dimana setiap variable tersebut direkam sebanyak 20 kali dan terdiri dari 6 ciri.
20 data record di bagi menjadi 16 record data latih dan 4 record data uji.
c. Dalam penelitian ini menggunakan ucapan dari satu orang.
3
4. TUJUAN PENELITIAN
Tujuan dari penelitian ini adalah menerapkan metode K-Nearest Neighbor
(KNN) dan Mel Frequency Cepstrum Coefficients (MFCC) pada proses analisis
pengenalan ucapan.
5. MANFAAT PENELITIAN
Manfaat yang dapat di ambil dari penelitian “Pengenalan Suara
Menggunakan Metode Mel-Frequence Cepstrum Coefficients (MFCC) dan K-
Nearest Neighbor (KNN)” adalah:
a. Menghasilkan penerapan system dengan metode MFCC dan KNN pada proses
pengenalah ucapan yang lebih efisien.
b. Mengetahui kekurangan dan kelebihan dari penerapan metode MFCC dan KNN
dalam pengenalan suara.
c. Hasil penelitian ini diharapkan mampu memberikan keputusan dalam
pengenalan suara dalam tempo waktu yang sangat efisien.
d. Memberikan renferensi dalam penelitian selanjutnya.
6. TINJAUAN PUSTAKA
Penelitian terdahulu dilakukan oleh (Putra & Adi, 2011). Pada penelitian ini
system verifikasi suara dengan MFCC dianggap baik dalam ekstraksi fitur dalam
pengenalan suara, semakin banyak uji coba yang dilakukan oleh seseorang, maka
semakin baik pula kemampuan sisten dalam mengenali suara, metode Dynamic
Time Wrapping digunakan untuk membandingkan dua buah fitur suara hasil proses
4
dari MFCC, nilai-nilai parameter MFCC yang di gunakan mempengaruhi hasil dari
proses MFCC itu sendiri, sehingga pengaruh saat pencocokan data sangat tinggi,
hal yang dapat berpengaruh pada system verifikasi suara adalah panjang frame,
jumlah koefisien filter bank, dan dan jumlah koefisien FMCC.
Pada penelitian tersebut, hasil terbaik yang di berikan system adalah pada
saat digunakan nilai parameter sebagai berikut: N=30 ms, M=15 ms, 33 koefisien
filterbank dan 25 koefisien MFCC, pengujian dilakukan pada kata satu, dua, tiga,
empat dan lima, dengan 36 orang pengguna, dan 6 buah sample acuan dan 1 sample
uji, untuk masing-masing kata dan diperoleh akurasi rata-rata sebesar 80.508%.
system verifikasi suara menunjukan hasil yang buruk pada saat nilai paramerter
MFCC yang digunakan adalah N=20 ms, M=10 ms, 20 koefisien filterbank, 11
koefisien MFCC, diuji pada 35 orang pengguna, 210 sample acuan, 35 sample uji,
terdapat kata satu, dua, tiga, empat dan lima, didapat akurasi rata-rata sebesar
73.260%.
Penelitian berikutnya dilakukan oleh (Thiang & Wijoyo, 2011). Pada
penelitian ini disimpulkan bahwa LPC dan ANN dapat mengenali ucapan dengan
baik. Tingkat akurasi tertinggi bisa mencapai 94%, ini dicapat dengan 1 layer
tersembunyi, 5 neuron per layer, tingkat pembelajaran proses pelatihan 0.1 dan JST
dilatih dengan 25 sample per perintah, hasil perbandingan dengan pekerjaan
sebelumnya JST terbukti lebih baik dalam pengenalan ucapan. Penulis
menyarankan untuk mencoba menggunakan metode lain seperti Fuzzy Type 2,
Neuro Fuzzy dan lainnya agar mendapatkan akurasi pengenalan suara yang labih
baik.
5
Penelitian lain yang dilakukan oleh (Walid & Darmawan, 2017) . Penelitian
ini menyatakan dengan metode LPC dan KNN mampu memberikan keputusan
pengenalan ucapa, yang mana dari 16 kali percobaaan system mampu mengenali
10 dari data uji, atau memiliki akurasi 62,5%. Aplikasi ini dinyatakan dapat
dikembangkan untuk pengembangan control system berbasis microcontroller
berbasis suara, atau robotika. Dinyatakan pula bahwa penelitian tersebut perlu
dilanjutkan untuk mengenali ucapan yang lebih kompleks dan data uji yang lebih
banyak, dan personil (orang) yang lebih banyak, serta diperlukan metode klasifikasi
yang lebih baik.
Penelitian lain yang dilakukan oleh (Swamy & Ramakrishnan, 2013).
Menyatakan bahwa pada tahapan identifikas bicara telah menggunakan MFCC dan
Distance Minimum Technique (DMT), dan tahap pengenalan ucapan menggunakan
algoritma HMM. Disebutkan bahwa system dengan metode MFCC dan DMT
mampu memberikan identifikasi pembicaraan yang lebih efisien, ditemukan bahwa
modul pengenalan ucapan meningkatkan efisiensi nilai pengenalan suara.
Pengkodean dalam penelitian tersebut menggunakan MATLAB, dan menemukan
kombinasi kedua metode tersebut memberikan hasil terbaik dan akurat dengan nilai
efisiensi keseluruhan 95%. Algoritma HMM juga mampu mengenali kata terisolasi
yang sering digunakan, hasil pengenalan ucapan keseluran mencapai efisiensi 98%.
Penelitian lain yang dilakukan oleh (Kataria & Singh, 2013). Menyatakan
bahwa Klasifikas membuka kesempatan untuk klasifikasi biometrik seperti iris
mata, dan verifikasi tanda tangan. Jika dibandingkan atara pengukuran jarak yang
lain, Euclidian memilki efisiensi yang lebih tinggi. Klasifikasi KNN merupakan
6
salah satu klasifikasi yang populer dalam pengenalan pola. Namun metode ini
memiliki keterbatasan seperti kerumitan perhitungan, bergantung sepenuhnya pada
data latih, dan tidak ada perbedaan berat antara kelas-kelas di dalamnya. Untuk
menangani hal tersebut peneliti dalam penelitian tersebut menggunakan metode
Genetic Algorithm (GA). Hasil setiap kasus memberikan efisiensi hamper 100%,
ini dikarenakan data latih dan sampel yang digunakan kecil dan jaraknya sangat
dekat.
Penelitian lain yang dilakukan oleh (Fetra & Irsyad, 2015). Menyatakan
bahwa setelah dilakukan proses dalam rancang bangun aplikasi pencarian chord
dalam membantu penciptaan lagu, menyimpulkan hasil pencarian chord suara vocal
tanpa music menghasilkan akurasi yang lebih baik dibandingkan dengan
menggunakan music dimana tingkat akurasi mencapai 82.35% dengan 7
ketetanggaan terdekat dan tingkat akurasi dengan menggunakan music mencapai
22.22% dengan 7 ketetanggaan terdekat.
7. LANDASAN TEORI
Pengenalan ucapan (speech recognition) merupakan system yang
digunakan untuk memprosesn sinyal suara menjadi data sehingga dapat dikenali
oleh komputer. Pengenalan ucapan merupakan salah satau bagian dari teknologi
pengenalan suara (voice recognition) dalam bidang ilmu komunikasi yang
melibatkan pengolahan sinyal (signal processing). (Bagus Prasetyo & Novia
Wisesty, 2016)
7
Pengenalan suara (voice recognition) adalah proses identifikasi suara
berdasarkan kata yang di ucapkan sehingga dapat di manfaatkan untuk berbagai
jenis aplikasi. Secara umum tahapan pengenalan suara dibagi menjadi dua bagian,
yakni tahap pembelajaran pola, dan tahap pengenalan suara melalui perbandingan
pola. Blok diagaram pembelajaran pola dan pengenalan suara ditunjukan pada
Gambar 1.
Gambar 1. Blok diagram pembelajaran pola dan pengenalan suara. Commented [ra1]: Gambar di revisi
Berikut penjelasan dari blok diagram diatas:
a. Pengekstraksi Ciri
Pengekstraksi ciri merupakan proses mendapatkan bagian besaran
sinyal masukan untuk dijakan sebagai pola pembelajaran atau pola uji.
Untuk sinyal suara, ciri-ciri besaran merupakan hasil dari bentuk teknik
analisis spectrum seperti LPC (Learning Predictive Coding) dan MFCC
(Mel-Frequency Cepstrum Coefficients).
b. Pembelajaran Pola
Satu pola uji atau lebih yang berhubungan dengan bunyi suara dari kelas
yang sama, digunakan untuk membentuk pola representatif dari kelas
tersebut. Hasilnya disebut dengan pola refrensi dan menjadi sebuah
model yang mempunyai karekteristik bentuk statistik dari pola refrensi.
8
c. Perbandingan dengan pola model
Proses perbandingan pola uji yang dikenali dengan setiap kelas pola
model referensi.
d. Pengambilan keputusan
Proses menentukan kelas pola referensi mana yang paling cocok dengan
pola uji berdasarkan klasifikasi pola. Dalam pengambilan keputusan
dapat memanfaatkan metode klasifikasi seperti K-Nearest Neighbor
(KNN) ataupun yang lainnya.
Mel-Frequency Cepstrum Coefficients (MFCC) merupakan cara yang
paling sering digunakan pada berbagai bidang pemprosesan suara, karena metode
ini cukup baik dalam merepresentasikan sinyal. Cara kerja MFCC didasarkan pada
perbedaan frekuensi yang dapat ditangkap oleh telinga manusia, sehingga mampu
merepresentasika sinyal suara sebagaimana manusia merepresentasikannya. Blok
diagram MFCC dapat dilihat pada Gambar 2.
Gambar 2. Blok diagram MFCC.
Frame Blocking merupakan proses segmentasi sinyal suara menjadi
beberapa frame yang saling tumpang tindih (overlap). Hal ini dilakukan agar tidak
ada sedikitpun sinyal yang hilang (deletion). Proses ini akan berlanjut sampai
9
seluruh sinyal sudah masuk ke dalam satu atau lebih frame seperti yang di
ilustrasikan pada Gambar 3.
Gambar 3. Ilustrasi Frame Blocking.
Windowing merupakan proses yang bertujuan untuk meminimalisasi
ketidakberlanjutan sinyal pada awal dan akhir setiap frame. Sinyal analog yang
sudah diubah menjadi sinyal digital dibaca frame demi frame dan pada setiap frame-
nya dilakukan windowing dengan fungsi window tertentu. Jika didefinisikan
window sebagai 𝑤(𝑛), 0 ≤ 𝑛 ≤ 𝑁 − 1, di mana N adalah jumlah sampel pada
setiap framenya, maka hasil dari windowing adalah sinyal:
𝑦1 (𝑛) = 𝑥1 (𝑛)𝑤(𝑛), 0 ≤ 𝑛 ≤ 𝑁 − 1
Dimana w(n) biasanya menggunakan window Hamming yang memiliki bentuk:
2𝜋𝑛
𝑤(𝑛) = 0.54 − 0.46. 𝑐𝑜𝑠 ( ),0 ≤ 𝑛 ≤ 𝑁 − 1
𝑁−1
FFT (Fast Fourier Transform) merupakan fast algorithm dari Discrete
Fourier Transform (DFT) yang berguna untuk mengonversi setiap frame dengan N
sampel dari domain waktu menjadi domain frekuensi, sebagaimana didefinisikan
sebagai berikut:
10
𝑁−1
𝑋1 = ∑ 𝑥𝑘 𝑒 −2𝜕𝑗𝑘𝑛/𝑁
𝑘=0
Dimana 𝑛 = 0,1,2, … , 𝑁 − 1 𝑑𝑎𝑛 𝑗 = √−1.
Hasil dari tahapan ini biasanya disebut dengan spectrum atau periodogram.
Mel-Frequency Wrapping merupakan proses pengukuran frekuensi.
Persepsi system pendengaran manusia terhadap frekuensi sinyal suara tidak dapat
diukur dalam skala linier. Untuk setiap nada dengan frekuensi actual, f, diukur
dengan Hz, sebuah subjective pitch diukur dalam sebuah skala yang disebut “mel”.
Skala mel-frequency ialah sebuah frekuensi rendah yang bersifat linier dibawah
1000 Hz dan sebuah frekuensi tinggi yang bersifat logaritmik di atas 1000 Hz.
Persamaan berikut menunjukan hubungan skala mel dengan frekuensi dalam Hz:
𝐹𝐻𝑍
2595 ∗ 𝑙𝑜𝑔10 (1 + ) , 𝐹𝐻𝑍 > 1000
𝐹𝑚𝑒𝑙 ={ 700
𝐹𝐻𝑍, < 1000
Proses wrapping terhadap sinyal dalam domain frekuensi dilakukan menggunakan
persamaan berikut:
𝑁−1
𝑋𝑖 = 𝑙𝑜𝑔10 (∑|𝑋(𝑘)|𝐻𝑖 (𝑘))

𝑘=0
Di mana i = 1,2, 3…, M (M adalah jumlah filter segitiga) dan Hi(k) adalah nilai
filter segitiga ke-i untuk frekuensi akustik sebesar k. (Mada Sanjaya, 2016)
K-Nearest Neighbor (KNN) adalah metode untuk klasifikasi objek
berdasarkan data pembelajaran yang jaraknya lebih dekat (Neighbor) terhadap
objek tersebut. Jumlah data atau tetangga terdekat di tentukan oleh pengguna yang
dinyatakan dengan k. (Ignatia Dhian E.K.R, 2016)
11
KNN berdasarkan pada konsep “learning by analogy”. Data uji di
deskripsikan dengan atribut numerik n-dimensi. Tiap data uji merepsentasikan
sebuah titik, yang di tandai dengan c, dalam ruang n-dimensi. Jika sebuah query
data yang labelnya tidak diketahui dimasukkan, maka KNN akan mencari k-buah
data uji yang jaraknya paling dekat dengan data dalam dimensi tersebut. Jarak
antara data query (data uji) dengan data learning (data latih) di hitung dengan cara
mengukur jarak terdekat berdasarkan jarak Euclidian Distance (Krisandi,
Prihandono, & Helmi, 2013)
Euclidian distance adalah matriks yang sering digunakan untuk menghitung
kesamaan dua vektor. Jarak Euclidian menghitung akar kuadrat dari dua vektor
(root of square differences between two vector). Persamaan dari jarak Euclidian
adalah sebagai berikut: (Wira Buana, Jannet D.R.M., & Ketut Gede Darma Putra,
2012)
2
𝑥𝑖𝑗 = √∑𝑛𝑘=1(𝑥𝑖𝑘 − 𝑥𝑗𝑘 ) atau 𝑑 = √∑𝑛𝑖=1(𝑎𝑖 − 𝑏𝑖 )2
Adapun langkah-langkah klasifikasi KNN adalah sebagai berikut:
1) Jika sekumpulan vektor data latih memiliki N titik data secara
keseluruhan, maka kenali k-buah tetangga terdekat dari sampel
𝑥 dimana 𝑘 merupakan bilangan ganjil.
2) Dari k-buah tetangga terdekat tersebut, identifikasikan jumlah vektor 𝑘𝑖
pada kelas 𝜔𝑖 , 𝑖 = 1,2, … , 𝑚 dengan ∑𝑖 𝑘𝑖 = 𝑘. 𝑘
3) Masukan kelas 𝑥 pada kelas 𝜔𝑖 dengan kelas 𝑘𝑖 maksimum.
4) Jika terdapat dua buah 𝜔𝑖 yang memiliki E tetangga terdekat. Maka
terjadi kondisi seimbang dan digunakan strategi pemecahan konflik.
12
5) Untuk masing-masing kelas yang terlibat dalam konflik, tentukan jarak
𝑑𝑖 atara 𝑥 dengan 𝜔𝑖 .
6) Jika pola pelatihan ke-𝑚 dari kelas 𝜔𝑖 yang terlibat dalam konflik di
tunjukan dengan 𝑦 𝑖𝑚 = {𝑦1𝑖𝑚 , … … , 𝑦𝑁𝑖𝑚 } maka jarak antara kelas 𝑥
1 𝑖𝑚
dengan kelas adalah 𝑑𝑖 = ∑𝑁
𝑗=1 |(𝑥𝑗 − 𝑦𝑗 ).
𝐸
7) Masukan 𝑥 kedalam kelas dengan jarak 𝑑𝑖 paling kecil, yaitu 𝑥 ∈ 𝜔𝑐
jika 𝑑𝑐 < 𝑑𝑐 untuk 𝑖, 𝑐 ∈ |1, … … , 𝑀| dan 𝑖 ≠ 𝑐.
13
8. KEASLIAN PENELITIAN
Tabel 1. Matriks literatur review dan posisi penelitian

Pengenalan Ucapan Menggunakan Metode K-Nearest Neighbor (KNN) dan Mel-Frequency Cepstrum Coefficients (MFCC)
No Judul Peneliti, Tujuan Penelitian Kesimpulan Saran atau Kelemahan Perbandingan

Media
Publikasi, dan
Tahun
1 Verifikasi Biometrika Darma Putra, Bagaimana Metode MFCC Kelemahan ditemukan Perbedaan antara hasil
Suara Menggunakan Adi merancang dan merupakan metode yang pada beberapa hal yaitu, penelitian sebelumnya
Metode MFCC dan Resmawan, membuat system baik dalam ekstraksi yang dapat dengan penelitian yang akan
DTW Biometrika yang dapat fitur dalam pengenalan mempengaruhi baik dilakukan, diantaranya
Universitas melakukan suara. buruknya kinerja system metode kedua yang
Udayana, verifikasi suara Semakin banyak verifikasi suara adalah digunakan adalah metode
2011 dengan training yang dilakukan panjang frame (N), KNN yang melakukan
menggunakan oleh pengguna semakin panjang pergeseran verifikasi suara dengan cara
metode MFCC dan baik kemampuan frame (M), jumlah pendekatan nilai, sehingga
DTW system dalam koefisien filterbank dan hasil yang diberikan lebih
pengenalan suara. jumlah koefisien MFCC. akurat dan lebih cepat dalam
Metode DTW dapat System memperlihatkan memberi keputusan. Nilai
digunakan untuk hasil yang buruk saat koefisien MFCC akan sangat
membandingkan dua nilai-nilai parameter membentu pada proses
buah fitur suara hasil MFCC yang digunakan klasifikasi selanjutnya dan
dari proses MFCC. adalah N=20 ms, M=10 tidak menjadikan masalah
Hasil terbaik yang ms, 23 koefisien berkaitan dengan framing.
diberikan oleh system filterbank, 11 koefisien Semakin banyak data latih
adalah pada saat nilai- MFCC, dilakukan pada dan data uji akan semakin
nilai parameter MFCC 35 orang, 210 sampel baik untuk mengambil
dimana N =30 ms, acuan, 35 sampel uji keputusan.
M=15 ms, 33 koefisien terhadap kata satu, dua,
filterbank dan 25 tiga, empat dan lima, di
14
Media
Publikasi, dan
Tahun
koefisien MFCC. daptkan rata-rata akurasi
Pengujian dilakukan sebesar 73.260%.
terhadapa kata satu,
dua, tiga, empat, lima
dengan 36 orang
pengguna, 6 buah
sampel acuan dan 1
buah sampel uji untuk
masing-masing kata,
diperoleh rta-rata
akurasi sebesar
88.508%.
2 Speech Recognition Thiang, Suryo Tujuan dari Dari hasil eksperiment, Untuk penelitian Penelitian ini memiliki
Using Linier Wijono, penerapan Artificial disimpulkan bahwa berikutnya, untuk perbedaan yang signifikan,
Predictive Coding and International neural network LPC dan ANN dapat mendapatkan pengenalan meski pada bidang yang
Artificial Neural Conference on adalah untuk mengenali ucapan yang lebih baik, sama, metode yang
Network for Information meningkatkan dengan baik. Tingkat disarankan untuk digunakan berbeda, tingkat
Controlling and tingkat pengenalan pengakuan tertinggi menggunakan metode kompleksitas proses-pun
Movement of Mobile Electronics ucapan. adalah 91.4%. Hasil ini lain. berbeda, dengan tujuan yang
Robot Engineering, dicapai dengan LPC dan sama. Hasil yang diberikan
Singapore, ANN dengan 1 lapisan tentu berbeda. Dan pada
2011 tersembunyi, 5 neuron penelitian yang akan
per lapisan, tingkat dilakukan tentu akan
pembelajaran proses menghasilkan hasil yang
pelatihan 0.1 dan JST lebih baik karena waktu yang
dilatih menggunakan 25 dibutuhkan dalam
sampel per perintah. pencocokan suara lebih cepat.
15
Media
Publikasi, dan
Tahun
3 Pengenalan Ucapan Miftahul Pengenalan Ucapan Metode LPC dan KNN Perlu adanya riset lebih Penelitian ini dengan
Mengunakan Metode Walid & Menggunakan mampu memberikan lanjut untuk mengenali penelitian yang akan
Linier Predictive Aangkisnu Metode LPC dan keputusan pengenalan data ucapan yang lebih dilakukan memiliki
Coding (LPC) dan K- Darmawan, KNN ucapan, dimana dari 16 kompleks dan lebih perbedaan metode utama,
Nearest Neighbor Energi. kali percobaan 10 dapat banyak data ucapan yakni metode yang digunakan
(KNN) Universitas dikenali dan 6 tidak sebagai data training pada penelitian ini
Panca Marga, dapat dikenali, atau serta melibatkan banyak menggunakan LPC,
2017 memiliki akurasi personal dengan metode sedangkan yang pada
sebesar 62.5% yang lebih baik. penelitian berikutnya
menggunakan MFCC,
keduanya merupakan metode
untuk ekstraksi ciri ucapan,
namun MFCC memiliki
keunggulan, yaitu MFCC
bekerja mirip seperti cara
dengar telinga manusia,
sehiggga dimungkinkan dapat
menghasilkan hasil yang
lebih maksimal.
4 An Efficient Speech Suma Swamy Tujuan utama dari Pada identifikasi Tidak disebutkan saran Penelitian ini dengan
Recognition System & K.V makalah ini adalah pembicaraan, Teknik dan kelemahan dari penelitian yang akan
Ramakrishnan, implementasi MFCC dan Distance penelitian ini, namun dilakukan memiliki
Computer identifikasi Minimum telah penelitian ini perbedaan metode dalam
Science & pembicaraan dan digunakan. Kedua menggunakan beberapa pengenalan ucapan, yaitu
Engineering: peningkatan Teknik tersebut metode. metode yang digunakan
An pengenalan suara memberikan identifikasi dalam penelitian ini
International dengan pembicaraan yang lebih menggunakan metode HMM
menggunakan efisien. Tahap sebagai pengenalan ucpan.
16
Media
Publikasi, dan
Tahun
Journal Teknik Hidden pengenalan ucapan Sedang kan pada penelitian
(CSEIJ), 2013 Markov Model menggunakan Teknik yang akan dilakukan
(HMM). algoritma HMM yang menggunakan metode KNN.
paling efisien. Semua
pengkodean
menggunakan
MATLAB. Ditemukan
bahwa kombinasi
MFCC dan Distance
Minimum memberikah
hasil terbaik dan hasil
yang akurat pada
sebagian besar kasus
dengan efisiensi
keseluruhan 95%. Studi
ini juga menjelaskan
bahwa Teknik HMM
mampu
mengindentifikasi kata
yang terisolasi yang
paling umum
digunakan. Secara
keseluruhan system
pengenalan suara
mencapai efisiensi 98%.
5 A Review of Data Aman Kataria Analisa data Bila dibandingkan, Kekurangan KNN ialah Pada penelitian ini KNN
Classification Using and M. D. menggunakan perhituangan jarak memiliki kerumtan yang disandingkan dengan metode
Singh, algoritma KNN dengan menggunakan sangat hebat. Bergantung Algoritma Genetika atau
17
Media
Publikasi, dan
Tahun
K-Nearest Neighbor International Euclidiance memiliki sepenuhnya pada set Genetic Algorithm (GA),
Algorithm Journal of efisiensi yang lebih pelatihan, dan tidak ada yang mana kelemahan KNN
Engineering tinggi dibanding dengan perbedaan berat pada menjadi masalah dalam kasus
Technology perhitungan jarak yang masing-masing kelas. ini sehingga sepenuhnya
and Advance lain dan jika di KNN harus di bergantung pada metode GA,
Engineering, bandingkan dengan sandingkan dengan sedangkan pada penelitian
2013 algoritma Bayes, metode lain untuk berikutnya KNN merupakan
algoritma KNN lebih menangani metode yang digunakan
mempertahankan kelemahannya. sebagai pengambil keputusan
efisiensinya. KNN karena data yang masuk
adalah Teknik sudah di olah sebelumnya
klasifikasi yang paling menggunakan metode yang
popular dalam memang khusus untuk
pengenalan pola. ekstrasi ciri dalam
pengenalan ucapan yaitu
MFCC.
6 Aplikasi Pencarian Niky Fetra dan Menghasilkan Hasil pencarian chord Aplikasi selanjutnya
Chord Dalam Muhammad aplikasi pencarian suara vocal tanpa music dapat diterapkan pada
Membantu Penciptaan Irsyad, Journal chord dari masukan menghasilkan akurasi perangkat mobil.
Lagu Menggunakan CoreIT, UIN suara vocal. yang lebih baik Aplikasi dapat
Algoritma Fast Sultan Syarim dibandingkan dengan menemukan tempo dan
Fourier Transform Kasim Riau, menggunakan music birama secara otomatis.
dan Metode 2015. dimana tingkat akurasi Dan aplikasi dapat
Klasifikasi K-Neares mencapai 82.35% menghasilkan keluaran
Neighbor (KNN) dengan 7 ketetanggaan semua jenis chord.
terdekat dan tingkat
akurasi dengan
menggunakan music
18
Media
Publikasi, dan
Tahun
mencapai 22.22%
dengan 7 ketetanggaan
terdekat
19
9. HIPOTESIS
Speech Recognition merupakan system computer yang merubah sinyal
suara menjadi data. Perubahan sinyal suara tersebut melalui dua tahap yaitu, tahap
pembelajaran pola dan tahap pengenalan suara. Untuk pembelajaran pola
menggunakan metode Mel-Frequency Cepstrum Coefficients (MFCC), sedangkan
pengenalan suara menggunakan metode K-Neares Neighbor (KNN).
Metode MFCC merupakan teknik pengenalan ucapan yang bekerja dengan
menangkap perbedaan frekuensi suara layaknya telinga manusia, sehingga mampu
merepresentasikan sinyal suara sebagaimana telinga manusia merepresen-
tasikannya.
Metode KNN merupakan metode klastering yang sering digunakan untuk
mendukung pengambilan keputusan. Metode KNN bekerja berdasarkan data
pembelajaran yang jaraknya lebih dekat (Neighbor) terhadap objek tersebut.
Dengan kedua metode tersebut diatas penelitian ini dimungkinkan mampu
menghasilkan pengenalan ucapan yang lebih efisien. Mampu mengenali ucapan
dengan nilai yang cukup tinggi, mengingat kedua metode tersebut sudah tidak
diragukan lagi dalam menangani pengolahan suara dan pengambilan keputusan.
Untuk itu dalam penelitian ini mencoba menggunakan metode MFCC dan KNN
untuk mendapatkan hasil yang lebih baik.
20
10. METODE PENELITIAN
10.1. Jenis, Sifat dan Pendekatan Penelitian
Adapun tahapan atau langkah-langkah yang dilakukan peneliti dalam
penelitian ini mulai dari proses pengumpulan data sampai didapatkan hasil akhir
digambarkan dalam bentuk diagram berikut:
Gambar 4. Metodologi Penelitian
10.2. Metode Pengumpulan Data
Proses pengambilan data dalam penelitian ini menggunakan metode
pengamatan (observation). Pengamatan dilakukan dengan cara merekam ucapan
yang terdiri dari 4 kata, yakni “maju, mundur, kanan, dan kiri” setiap ucapan
diekstrak dengan menggunakan metode MFCC sehingga didapatkan 6 nilai
koefisien, nilai koefisien tersebut akan digunakan sebagai data yang dijadikan
sebagai data latih pada system KNN. 4 macam ucapan tersebut akan direkam
21
berulang-ulang sebanyak 20 kali, sehingga jumlah total data latih sebanyak 80 data
ucapan. Setiap data dari setiap ucapan akan dibagi menjadi dua bagian, 16 data akan
dijadikan sebagai data latih dan sisanya yaitu 4 data akan dijakan sebagai data uji.
Total data latih adalah sebanyak 64 data ucapan dan total data uji adalah sebanyak
16 data ucapan.
10.3. Metode Analisis Data
Setelah data terkumpul, maka dilakukan pengolahan data dengan cara
menganalisis data melalui pengamatan terhadap implementasi sistem. Untuk
melakukan proses analisa data disini peneliti menggunakan beberapa software dan
hardware pendukung.
Software pendukung penelitian antaralain:
1) MATLAB R2017a Windows / MATLAB R2016a Linux X64
2) Windows 10
3) Linux Ubuntu 16.04 LTS
4) Microsoft Office 2016
5) Libre Office
Hardware pendukung penelitian antara lain:
1) ASUS ROG GL533VD
2) Headset JBL
Hardware dan software tersebut digunakan sebagai alat untuk analisis dalam
penelitian ini. Selanjutnya dilakukan proses ekstraksi ciri. Tahapan ini merupakan
proses yang perlu dilakukan untuk mendapatkan nilai koefisien setiap data ucapan,
22
dimana data awal yang masuk berupa data sinyal suara yang kemudian dikonversi
kedalam bentuk angka, adapun langkah-langkah konversi tersebut adalah sebagai
berikut:
Gambar 5. Proses Ekstraksi Ciri dengan MFCC
1) Preemphasis
Merupakan proses filter setelah proses sampling. Tujuan dari proses
filter preemphasis adalah untuk mendapatkan bentuk spectral frekuensi
sinyal suara yang lebih halus. Di mana bentuk spectral yang relative
bernilai tinggi untuk daerah rendah dan cenderung turun secara tajam
untuk daerah frekuensi di atas 2000 Hz. Filter preemphasis didasari oleh
23
hubungan input/output dalam domain waktu yang dinyatakan dalam
persamaan beda seperti berikut:
𝑦(𝑛) = 𝑥(𝑛) − 𝑎𝑥(𝑛1)
Dimana a merupakan konstanta filter preemphasis, biasanya bernilai 0.9
< a < 1.0.
2) Frame Blocking
Pada proses ini, sinyal suara disegmentasi menjadi beberapa frame yang
saling tumpang tindih (overlap). Hal ini dilakukan agar tidak ada
sedikitpun sinyal yang hilang (deletion). Proses ini akan berlanjut
sampai seluruh sinyal sudah masuk ke dalam satu atau lebih frame
seperti yang dililustrasikan pada Gambar 3.
3) Windowing
Sinyal analog yang sudah diubah menjadi sinyal digital dibaca frame
demi frame dan pada setiap frame-nya dilakukan windowing dengan
fungsi window tertentu. Proses windowing bertujuan untuk
meminimalisassi ketidak berlanjutan sinyal pada awal dan akhir setiap
frame. Jika kita definisikan window sebagai 𝑤(𝑛), 0 ≤ 𝑛 ≤ 𝑁 − 1
dimana N adalah jumlah sampel pada setiap frame-nya, maka hasil dari
windowing adalah sinyal:
𝑦1 = 𝑥1 (𝑛)𝑤(𝑛), 0 ≤ 𝑛 ≤ 𝑁 − 1
Dimana w(n) biasanya menggunakan window Hamming yang memiliki
bentuk:
2𝜋𝑛
𝑤(𝑛) = 0.54 − 0.46. cos ( ),0 ≤ 𝑛 ≤ 𝑁 − 1
𝑁−1
24
4) Fast Fourier Transform (FFT)
DFFT merupakan Fast Algorithm dari Discrete Fourier Transform
(DFT) yang berguna untuk mengonversi setiap frame dengan N sampel
dari domain waktu menjadi domain frekuensi, sebagaimana
didefinisikan sebagai berikut:

𝑁−1
𝑥𝑛 = ∑ 𝑥𝑘 𝑒 −2𝜕𝑗𝑘𝑛/𝑁
𝑘=0
Dimana n = 0, 1, 2, …, N-1 dan 𝑗 = √−1.
Hasil dari tahapan ini disebut sebagai spectrum atau periodogram.
5) Mel-Frequency Wrapping
Persepsi system pendengaran manusia terhadap frekuensi sinyal sura
tidak dapat diukur dalam skala linier. Untuk setiap nada dengan
frekuensi actual, f, diukur dalam Hz, sebuah subjective pitch diukur
dalam sebuah skala yang disebut “mel”. Skala Mel-Frequency ialah
sebuah frekuensi rendah yang bersifat linier di bawah 1000 Hz dan
sebuah frekuensi tinggi yang bersifat logaritmik diatas 1000 Hz.
Persamaan berikut menunjukkan hubungan skala mel dengan frekuensi
dalam Hz:
𝐹𝐻𝑍
2595 ∗ 𝑙𝑜𝑔10 (1 + ) , 𝐹𝐻𝑍 > 1000
𝐹𝑚𝑒𝑙 ={ 700
𝐹𝐻𝑍, < 1000
Proses wrapping terhadap sinyal dalam domain frekuensi dilakukan
menggunakan persamaan berikut:
25
𝑁−1
𝑋𝑖 = 𝑙𝑜𝑔10 (∑|𝑋(𝑘)|𝐻𝑖 (𝑘))

𝑘=0
Di mana i = 1,2, 3…, M (M adalah jumlah filter segitiga) dan Hi(k)
adalah nilai filter segitiga ke-i untuk frekuensi akustik sebesar k.
6) Cepstrum
Pada tahap ini akan dikonversi mel-spectrum kedalam domain waktu
dengan menggunakan Discrete Cosine Transfrom (DCT). Hasilnya
disebut dengan Mel-Frequency Cepstrum Coefficient (MFCC). Berikut
ini adalah persamaan yang digunakan dalam transformsi cosinus:

𝑀
𝜋
𝑐𝑗 = ∑ 𝑥𝑖 cos (𝑗(𝑖 − 1)/2 )
𝑀
𝑖=1
Di mana j = 1, 2, 3, …, K (K adalah jumlah koefisien yang diinginkan)
dan M adalah jumlah filter.
Tahapan selanjutnya adalah melakukan klasifikasi terhadap data yang telah
di ekstraksi. Proses ini bertujuan untuk mengenali data ucapan, pengenalan ucapan
dalam penelitian ini dilakukan dengan cara membandingkan data latih paling
terdekat dengan data uji, dimana data latih yang paling terdekat akan dijadikan
acuan dalam mengambil keputusan, proses peritungan jarak terdekat yang paling
sering digunakan adalah Euclidian Distance. Dan metode Euclidian Distance yang
digunakan adalah KNN. Proses KNN akan di jelaskan melalui gambar flowchart
dibawah ini.
26
Gambar 6. Proses K-NN.
KNN merupakan metode klasifikasi berdasarkan data pembelajaran yang
jaraknya paling dekat dengan obyek tersebu. KKN memerlukan dua model data
yaitu data latih dan data uji. Data pembelajaran di gambarkan kedalam ruang
berdimensi banyak, dimana masing-masing dimensi merepresentasikan ciri dari
data. Selanjutnya dua model data tersebut diproses untuk menentukan kelas data,
pencarian kelas-kelas dalam KNN menggunakan Teknik perhitungan jarak terdekat
dengan obyek tersebut. Dekat atau jauhnya obyek tersebut dengan tetangga dihitung
dengan Euclidean dengan rumus umum 𝑑 = √∑𝑛𝑖=1(𝑎𝑖 − 𝑏𝑖 )2, kemudian hasilnya
berupa data putusan sesuai dengan jarak terdekat pada data latih berdasarkan
ketentuan yang telah di tetapkan.
Adapun langkah-langkah klasifikasi KNN adalah sebagai berikut:
1) Jika sekumpulan vektor data latih memiliki N titik data secara
keseluruhan, maka kenali k-buah tetangga terdekat dari sampel
𝑥 dimana 𝑘 merupakan bilangan ganjil.
27
2) Dari k-buah tetangga terdekat tersebut, identifikasikan jumlah vektor 𝑘𝑖
pada kelas 𝜔𝑖 , 𝑖 = 1,2, … , 𝑚 dengan ∑𝑖 𝑘𝑖 = 𝑘. 𝑘
3) Masukan kelas 𝑥 pada kelas 𝜔𝑖 dengan kelas 𝑘𝑖 maksimum.
4) Jika terdapat dua buah 𝜔𝑖 yang memiliki E tetangga terdekat. Maka
terjadi kondisi seimbang dan digunakan strategi pemecahan konflik.
5) Untuk masing-masing kelas yang terlibat dalam konflik, tentukan jarak
𝑑𝑖 atara 𝑥 dengan 𝜔𝑖 .
6) Jika pola pelatihan ke-𝑚 dari kelas 𝜔𝑖 yang terlibat dalam konflik di
tunjukan dengan 𝑦 𝑖𝑚 = {𝑦1𝑖𝑚 , … … , 𝑦𝑁𝑖𝑚 } maka jarak antara kelas 𝑥
1 𝑖𝑚
dengan kelas adalah 𝑑𝑖 = ∑𝑁
𝑗=1 |(𝑥𝑗 − 𝑦𝑗 ).
𝐸
7) Masukan 𝑥 kedalam kelas dengan jarak 𝑑𝑖 paling kecil, yaitu 𝑥 ∈ 𝜔𝑐
jika 𝑑𝑐 < 𝑑𝑐 untuk 𝑖, 𝑐 ∈ |1, … … , 𝑀| dan 𝑖 ≠ 𝑐.
10.4. Alur Penelitian
Bagian Alur dari penelitian ini peneliti gambarkan delam bentuk diagram
alir. Diagram ini menjelaskan aliran algoritma tentang langkah-langkah secara
umum dari penelitian yang dilaksanakan. Diagram ini memberikan solusi langkah
demi langkah untuk menyelesaikan masalah yang ada pada algoritma tersebut.
Berikut merupakan diagram alir sistem pengenalan ucapan menggunakan metode
KNN dan MFCC:
28
Gambar 5. Diagram Alir Penelitian.
Dalam penelitian ini, data ucapan dibentuk deluar system dengan cara
merekam suara terlebih dahulu. Data terdiri dari dua jenis data latih dan data uji
dimana data latih merupakan data sampel atau dataset yang disimpan di database.
Tahapan-hapan proses analisis dimaulai dengan memasukan data uji,
selanjutnya data di ekstrak dengan menggunakan metode MFCC untuk
mendapatkan ciri berupa nilai koefisien, selanjutnya nilai koefisien tersebut
digunakan untuk proses pengenalan ucapan, pada proses ini metode KNN turut
didalamnya sebagai penentu keputusan dari kemiripan data latih dan data uji,
metode KKN memilah data masukan menjadi kelas-kelas sesuai dengan data latih
dan mencari nilai terdekat antara nilai koefisien data latih dan nilai koefisien data
uji. Hasilnya berupa keputusan data ucapan terdekat, atau bias disebut data ucapan
yang dikenali.
29
11. SISTEMATIKA PENULISAN
Sistematika penulisan dalam penelitian ini adalah sebagai berikut:
BAB I PENDAHULUAN
Bab ini berisi uraian latar belakang masalah, rumusan masalah, batasan
masalah, tujuan penelitian, dan manfaat penelitian, serta hipotesis jika
diperlukan.
BAB II TINJAUAN PUSTAKA
Bab ini berisi tinjauan pustaka, keaslian penelitian, dan landasan teori.
Tinjauan pustaka merupakan uraian hasil-hasil penelitian sebelumnya yang
melatarbelakangi penelitian yang akan dilakukan, sedangkan landasan teori
berisi teori-teori atau konsep yang dibutuhkan untuk menyusun solusi pada
penelitian yang akan dilakukan.
BAB III METODE PENELITIAN
Bab ini berisi jenis, sifat, dan pendekatan penelitian, metode pengumpulan
data, metode analisis data, dan alur penelitian.
BAB IV HASIL PENELITIAN DAN PEMBAHASAN
Bab ini menjelaskan hasil penelitian dan pembahasan dari penelitian yang
telah dilakukan.
BAB V PENUTUP
Bab ini berisi kesimpulan dan saran yang diharapkan bermanfaat untuk
penelitian selanjutnya.
30
12. RENCANA JADWAL PENELITIAN
Tabel 3. Rencana Jadwal Penelitian
Bulan
No Tahapan Target Output September Oktober November Desember
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1 Pencarian dan Pemilihan Obyek Penelitian Pproposal Tesis
2 Studi Literatur Pproposal Tesis
3 Perumusan Masalah Pproposal Tesis
4 Penyususnan Landasan Penelitian Pproposal Tesis
5 Penyusunan Metodologi Penelitian Pproposal Tesis
6 Penyusunan Naskah Proposal Tesis Naskah Proposal Tesis
7 Sidang Proposal Tesis Sidang Proposal Tesis
8 Pelaksanaan Pengumpulan Sampel Data Sampel Data
9 Analisis Data Hasil Analisa Data
10 Penyusunan Naskah Tesis Naskah Tesis
11 Sidang Tesis Sidan Tesis
12 Penyempurnaan Naskah Tesis Naskah Tesis
13 Penyusunan Paper Ringkasan Tesis Paper Ringkasan Tesis
14 Penyerahan Naskah Akhir Tesis dan Paper Naskah Akhir dan Paper
31
DAFTAR PUSTAKA
PUSTAKA BUKU
W.S, Mada Sanjaya., 2016, Robot Cerdas Berbasis Speech Recognition, Ed I,

Penerbit Andi, Yogyakarta.
S. Budi, 2007, Data Mining Terapan Dengan Matlab, Yogyakarta, Indonesia.
PUSTAKA MAJALAH, JURNAL ILMIAH ATAU PROSIDING
Bagus Prasetyo, H., & Novia Wisesty, U. (2016). Algoritma Pengenalan Ucapan
Huruf Hijaiyah Bertanda Baca Dengan Linear Predictive Coding (Lpc) Dan
Hidden Markov Model (Hmm). Indosc 2016, (August), 149–164.
https://doi.org/10.21108/INDOSC.2016.135
Fetra, N., & Irsyad, M. (2015). Aplikasi Pencarian Chord dalam Membantu
Penciptaan Lagu Menggunakan Algoritma Fast Fourier Transform ( FFT ) dan
Metode Klasifikasi K-Nearest Neighbor ( KNN ). Jurnal CoreIT, 1(2 ISSN:
2460-738X), 30–36.
Ignatia Dhian E.K.R, K. A. N. (2016). Klasifikasi batik menggunakan knn berbasis

wavelet. Seminar Nasional Teknologi Informasi Dan Komunikasi 2016
(SENTIKA 2016), Yogyakarta(ISSN : 2089-9815), 615–623.
Kataria, A., & Singh, M. D. (2013). A Review of Data Classification Using K-

Nearest Neighbour Algorithm. International Journal of Emerging Technology
and Advanced Engineering, 3(6), 354–360.
Krisandi, N., Prihandono, B., & Helmi. (2013). Algoritma K - Nearest Neighbor
Dalam Klasifikasi Data Hasil Produksi Kelapa Sawit Pada PT. MINAMAS
Kecamatan Parindu. Buletin Ilmiah Math.Stat.dan Terapannya(Bimaster),
2(1), 33–38.
Putra, D., & Adi, R. (2011). Verifikasi Biometrika Suara Menggunakan Metode
MFCC dan DTW. Biometrika, Universitas Udayana, 2(1), 8–21.
Setiawan, A., Hidayatno, A., & Isnanto, R. R. (2011). Aplikasi Pengenalan Ucapan
dengan Ekstraksi Mel-Frequency Cepstrum Coefficients ( MFCC ) Melalui
Jaringan Syaraf Tiruan ( JST ) Learning Vector Quantization ( LVQ ) untuk
Mengoperasikan Kursor Komputer. Universitas Diponegoro Semarang, 13(3),
82–86. https://doi.org/Transmisi 1411 – 0814
Swamy, S., & Ramakrishnan, K. V. (2013). an Efficient Speech Recognition

System. Computer Science & Engineering: An International Journal (CSEIJ),
3(4), 21–27. https://doi.org/10.5121/cseij.2013.3403
Thiang, & Wijoyo, S. (2011). Speech recognition using linear predictive coding and
artificial neural network for controlling movement of mobile robot. … of
International Conference on Information and …, 6, 179–183. Retrieved from
http://cpfd.cnki.com.cn/Article/CPFDTOTAL-CDYA201105001036.htm
Walid, M., & Darmawan, A. K. (2017). Pengenalan Ucapan Menggunakan Metode

Linear Predictive Coding ( LPC ) dan K-Nearest Neighbor (KNN). Energy,
Universitas Panca Marga, 7(1), 13–22. Retrieved from
https://ejurnal.upm.ac.id/index.php/energy/article/download/165/158/
Wira Buana, P., Jannet D.R.M., S., & Ketut Gede Darma Putra, I. (2012).
Combination of K-Nearest Neighbor and K-Means based on Term Re-
weighting for Classify Indonesian News. International Journal of Computer
Applications, 50(11), 37–42. https://doi.org/10.5120/7817-1105

2017 (U) Proposal Tesis V02 Fix

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

2017 (U) Proposal Tesis V02 Fix

Diunggah oleh

Hak Cipta:

Format Tersedia

PROPOSAL TESIS

PENGENALAN UCAPAN MENGGUNAKAN METODE

PROGRAM STUDI S2 TEKNIK INFORMATIKA

PENGENALAN UCAPAN MENGGUNAKAN METODE

SPEECH RECOGNITION WITH K-NEAREST NEIGHBOR (KNN)

Dipersiapkan dan Disusun oleh

Telah disetujui oleh Tim Dosen Pembimbing Tesis

Pembimbing Utama Pembimbing Pendamping

Prof. Dr. Ema Utami, S.Si, M.Kom

Pengenalan ucapan (speech recognition), merupakan bentuk dari

kecerdasan buatan dalam bidang ilmu komunikasi yang menggunakan pengolahan

keamanan berbasis suara, dan lain-lainnya. Semuanya merupakan aplikasi hasil

riset tentang pengenalan ucapan. Teknologi tersebut memanfaatkan keunikan suara

memverifikasi atau membuktikan ucapan yang diberikan. Analisis sinyal atau

tersebut terdapat 4 generasi pendekatan, dan generasi ke 5 sedang dalam

Untuk membuat sebuah system pengenalan sinyal ucapan, maka perlu

Coding (LPC) dan metode Mel-Frequency Cepstrum Coefficients (MFCC).

Frequency Cepstrum Coefficients (MFCC).

Mel Frequency Cepstrum Coefficients (MFCC) adalah teknik untuk

mempresentasikannya. Hasil analisis tersebut selanjutnya dijadikan data set dalam

pengklasifikasian (Mada Sanjaya 2016). MFCC didasarkan atas variasi bandwidth

Selanjutnya metode yang diguanakan untuk mengklasifikasi pada penelitian ini

adalah K-Nearest Neighbor (KNN).

untuk pengenalan pola. Banyak peneliti menemukan bahwa KNN mampu

nyatakan dengan k (S. Budi, 2007).

Diharapkan dalam penelitian ini yang berjudul “Pengenalan Ucapan

Menggunakan Metode K-Nearest Neighbor (KNN) dan Mel Frequency Cepstrum

Coefficients (MFCC)” dapat dicapai tujuan yaitu melakukan analisis pengenalan

menggunakan metode KNN dan MFCC, sehingga mampu meningkatkan efisiensi

Berdasarkan latar belakang penelitian, yang menjadi masalah utama dalam

penelitian ini adalah bagaimana menerapkan metode K-Nearest Neighbor (KNN)

ciri (magnitudo) dengan menggunakan metode Mel-Frequency Cepstrum

Coefficients (MFCC) dan kemudian di klasifikasi menggunakan metode K-

Nearest Neighbor (KNN).

c. Dalam penelitian ini menggunakan ucapan dari satu orang.

Tujuan dari penelitian ini adalah menerapkan metode K-Nearest Neighbor

Manfaat yang dapat di ambil dari penelitian “Pengenalan Suara

Menggunakan Metode Mel-Frequence Cepstrum Coefficients (MFCC) dan K-

Nearest Neighbor (KNN)” adalah:

pengenalah ucapan yang lebih efisien.

dalam pengenalan suara.

c. Hasil penelitian ini diharapkan mampu memberikan keputusan dalam

pengenalan suara dalam tempo waktu yang sangat efisien.

d. Memberikan renferensi dalam penelitian selanjutnya.

jumlah koefisien filter bank, dan dan jumlah koefisien FMCC.

Penelitian berikutnya dilakukan oleh (Thiang & Wijoyo, 2011). Pada

dilatih dengan 25 sample per perintah, hasil perbandingan dengan pekerjaan

sebelumnya JST terbukti lebih baik dalam pengenalan ucapan. Penulis

menyarankan untuk mencoba menggunakan metode lain seperti Fuzzy Type 2,

dikembangkan untuk pengembangan control system berbasis microcontroller

yang lebih baik.

Penelitian lain yang dilakukan oleh (Swamy & Ramakrishnan, 2013).

Distance Minimum Technique (DMT), dan tahap pengenalan ucapan menggunakan

mampu memberikan identifikasi pembicaraan yang lebih efisien, ditemukan bahwa

modul pengenalan ucapan meningkatkan efisiensi nilai pengenalan suara.

Pengkodean dalam penelitian tersebut menggunakan MATLAB, dan menemukan

bahwa Klasifikas membuka kesempatan untuk klasifikasi biometrik seperti iris

memiliki keterbatasan seperti kerumitan perhitungan, bergantung sepenuhnya pada

menangani hal tersebut peneliti dalam penelitian tersebut menggunakan metode

tanpa music menghasilkan akurasi yang lebih baik dibandingkan dengan

menggunakan music dimana tingkat akurasi mencapai 82.35% dengan 7

ketetanggaan terdekat dan tingkat akurasi dengan menggunakan music mencapai

22.22% dengan 7 ketetanggaan terdekat.

Pengenalan ucapan (speech recognition) merupakan system yang