Latar Belakang
Klasifikasi merupakan proses menentukan kelas suatu objek, dimana kelas
tersebut telah didefinisikan sebelumnya. Objek yang akan diklasifikasikan dapat
berupa gambar, teks, suara, dan lainnya. Pada umumnya, pelabelan dan klasifikasi
mempunyai pengertian yang sama, karena istilah pelabelan merupakan proses
menghubungkan suatu objek dengan kelasnya. Single-label classification
merupakan proses pembelajaran dimana masing-masing data memiliki asosiasi
dengan satu label l dari sekumpulan label L yang tidak saling berhubungan,
dimana jumlah label L lebih besar dari 1. Apabila jumlah label sama dengan dua,
maka disebut dengan binary classification, s edangkan apabila jumlah label lebih
aka disebut dengan multi-class classification. Multi-class classification
dari dua, m
merupakan salah satu tantangan utama dalam aplikasi dunia nyata, karena
melibatkan pelatihan objek-objek untuk kategori-kategori yang berbeda sehingga
memungkinkan identifikasi kategori untuk berbagai objek yang tidak diketahui [1]
.Multi-class classification dapat diaplikasikan dalam banyak kasus pada dunia
nyata, salah satunya adalah pada pengenalan ucapan atau speech recognition.
Speech recognition adalah proses yang dilakukan komputer untuk mengenali kata
yang diucapkan oleh seseorang tanpa mempedulikan identitas orang terkait [2].
Orang yang berbeda, karena perbedaan umur, jenis kelamin, aksen, dan pelafalan
dari kata yang sama adalah berbeda. Hal tersebut membuat pekerjaan dari speech
recognition ini menjadi cukup sulit [3].Untuk itu, dilakukan penelitian mengenai
sistem speech recognition yang mampu melakukan pengenalan ucapan secara
enggunakan objek
efektif. Penelitian yang bersifat multi-class classification m
suara dengan tujuan untuk membandingkan berbagai arsitektur deep learning
diterapkan pada klasifikasi suara ke dalam 5 kelas emosi, yakni
anger,happiness,sadness,
neutral, dan frustration [4]. P
enelitian lainnya menggunakan objek suara
dilakukan untuk mengenali umur dan jenis kelamin yang diklasifikasikan ke
dalam 6 kelas. Sedangkan penelitian dengan objek suara yang dilakukan
menggunakan metode Bayes Covariant, mengklasifikasikan speech frame dari
korpus TIMIT ke dalam 9 kelas kata.
Klasifikasi kata dari suara akan dilakukan menggunakan dua arsitektur yang
berbeda dari algoritma CNN, yaitu LeNet dan SPNet, kemudian melalui
eksperimen yang dilakukan akan dianalisis arsitektur yang paling efektif untuk
multi-class classification dari pengenalan kata yang diucapkan, yang jumlah
kelasnya adalah sebanyak 20 kelas dengan membandingkan akurasi yang
dihasilkan oleh eksperimen tersebut. Setelah mengetahui arsitektur yang paling
efektif antara LeNet dan SPNet, maka peneliti akan melakukan modifikasi
terhadap ukuran kernel arsitektur tersebut. Modifikasi ini dilakukan guna
mengetahui seberapa baik ukuran kernel yang digunakan yang dapat dilihat dari
akurasi yang lebih tinggi lagi dari arsitektur sebelumnya yang dibandingkan.
Kemudian, model terbaik akan dievaluasi kembali menggunakan presisi, recall,
dan f-measure.
Rumusan Masalah
Rumusan masalah yang didapatkan dari latar belakang yang telah dijelaskan pada
subbab 1.1 Latar Belakang adalah sebagai berikut:
1. Bagaimana proses ekstraksi fitur MFCC (Mel-Frequency Cepstral
Coefficients) y ang diterapkan terhadap objek suara?
2. Arsitektur Convolutional Neural Networks (CNN) manakah yang terbaik
dalam melakukan klasifikasi pada banyak kelas dari suara?
3. Seberapa baik pengaruh ukuran kernel pada arsitektur CNN terhadap
efektivitas pengenalan ucapan atau suara?
Tujuan Penelitian
Tujuan dari pelaksanaan Penelitian dengan judul Single Word Classification with
Convolutional Neural Networks from Speech Recognition adalah sebagai berikut:
1. Menerapkan MFCC sebagai metode untuk ekstraksi fitur suara.
2. Menerapkan algoritma CNN p ada pengenalan kata tunggal yang diucapkan
dan melakukan perbandingan terhadap dua arsitektur CNN y akni L
eNet
dan SPNet.
3. Melakukan modifikasi sebuah arsitektur pada ukuran kernel- nya
berdasarkan arsitektur yang menghasilkan akurasi terbaik dari antara
LeNet dan SPNet.
Ruang Lingkup
Lingkup dari pelaksanaan Penelitian dengan judul Single Word Classification with
Convolutional Neural Networks from Speech Recognition adalah sebagai berikut:
1. Data yang akan digunakan dalam penelitian ini adalah Speech Command
Dataset. Dataset ini berisi file suara berformat (.wav) yang telah
dikelompokkan ke dalam 20 folder berdasarkan kata yang diucapkan.
2. Speech recognition y ang dimaksud pada penelitian ini adalah pengenalan
kata.
3. Suara yang digunakan adalah suara yang melafalkan sebuah kata dalam
bahasa Inggris.
4. Jumlah varian kata yang akan dijadikan kelas adalah sebanyak 20 varian
kata.
5. Kata yang diucapkan dan yang akan dikenali memiliki spesifikasi yaitu
terdiri dari satu hingga dua suku kata.
6. Metode ekstraksi ciri yang digunakan adalah MFCC.
7. Algoritma yang digunakan dalam melakukan klasifikasi adalah
Convolutional Neural Network (CNN) dengan arsitektur LeNet dan SPNet.
Modifikasi arsitektur akan dilakukan terhadap ukuran kernel p ada convolutional
layer.
Bab 2
LANDASAN TEORI
Pada bab ini dijelaskan informasi yang diperoleh melalui pustaka yang relevan
dengan topik untuk memberikan gambaran secara umum terhadap teknik yang
digunakan oleh peneliti lain dan memperluas informasi dalam melakukan kajian
pada penelitian ini.
Oleh sebab itu, pengukuran performansi lain (disamping metrik performansi dari
kecepatan dan penggunaan memori) dari sebuah algoritma machine learning
adalah akurasi dari hasil. Akurasi didefinisikan sebagai probabilitas keluaran
sistem yang sesuai dengan keluaran mendasar yang sebenarnya dan merupakan
ukuran kinerja sistem. Sebagian besar pendekatan yang ada untuk memperkirakan
akurasi adalah supervised, yang berarti bahwa sekumpulan contoh berlabel
diperlukan untuk proses estimasi [10].
Tabel 2.1. Contoh Data Tidak Berlabel Bersama Dengan Masalah Pelabelan
Unlabeled Example Judgement for Possible Possible
Data Labeling Labels Supervisor
Example
Tabel 2.1 mendemonstrasikan lima contoh data yang tidak berlabel yang dapat
dilabeli berdasarkan kriteria yang berbeda. Kolom kedua menunjukkan kriteria
yang mungkin untuk setiap contoh data. Kolom ketiga mendeskripsikan label
yang mungkin setelah penilaian. Kolom keempat menginformasikan pelaku yang
dapat mengambil peran sebagai pengamat dan pemberi label. Analisis sentimen,
pengenalan gambar, dan teknologi pendeteksian suara telah membuat kemajuan
dalam tiga dekade terakhir tetapi masih terdapat banyak ruang untuk peningkatan.
Terdapat dua kelompok atau kategori dari algoritma dibawah payung supervised
learning, y aitu regresi dan klasifikasi. Metode yang digunakan pada penelitian ini
adalah supervised learning dengan kategori klasifikasi.
Dalam credit scoring, b ank menghitung risiko dengan jumlah kredit dan informasi
mengenai pelanggan. Pada contoh tersebut, pekerjaan analisis data tersebut
disebut dengan klasifikasi, dimana model atau pengklasifikasi dikembangkan
untuk memprediksi kelas atau kategori “pelanggan yang berisiko rendah” dan
“pelanggan yang berisiko tinggi”. Informasi tentang customer menjadi input
terhadap pengklasifikasi yang bertugas untuk menempatkan input tersebut
kedalam salah satu dari kedua kelas tersebut [5]. Kategori atau kelas dapat
direpresentasikan oleh nilai diskrit, dimana urutan antar nilai tidak bermakna.
Sistem klasikasi secara umum, tanpa umpan balik di antara tahap-tahap,
ditunjukkan pada Gambar 2.2 [13].
Proses klasifikasi data merupakan dua langkah proses, terdiri dari learning step
(dimana sebuah model klasifikasi dibangun) dan classification step (dimana
model digunakan untuk memprediksi label kelas untuk data yang diberikan).
Proses-proses tersebut dapat dilihat pada Gambar 2.3.
Pada langkah pertama, classifier a tau pengklasifikasi dikembangkan untuk
mendeskripsikan seperangkat kelas atau konsep data yang telah ditentukan. Ini
merupakan learning step (fase training) , dimana sebuah algoritma klasifikasi
membangun classifier dengan menganalisis atau belajar dari sebuah training set
yang dibentuk dari database dan label kelasnya yang terkait. Sebuah baris, X,
direpresentasikan oleh atribut vektor n-dimensi, X = (x1 , x2 , x3 , …, xn ) ,
menggambarkan n p engukuran yang dibuat pada baris dari n a tribut database,
masing-masing A1 , A2 , …, An . Setiap baris X, diasumsikan dimiliki oleh sebuah
kelas yang didefinisikan sebelumnya oleh atribut database lain yang disebut
dengan atribut label kelas [12]. Langkah pertama dari prosesklasifikasi dapat
juga dilihat sebagai pembelajaran dari pemetaan atau fungsi, y = f (x) , yang dapat
memprediksi label kelas y y ang terkait dari baris X yang diberikan.
Dalam sistem klasifikasi terdapat istilah bias yang merupakan dasar untuk
memilih satu generalisasi atau hipotesis atas yang lain selain konsistensi dengan
contoh training yang diamati [14]. Hasil klasifikasi yang bias merupakan hasil
klasifikasi yang hanya condong kepada kelas-kelas tertentu. Hal ini disebabkan
oleh jumlah data yang tidak seimbang pada setiap kelas yang dimiliki. Contohnya
diilustrasikan terhadap sebuah dataset yang terdiri dari data transaksi. Tujuannya
adalah untuk mengenali transaksi asli dan transaksi penipuan. Jika dataset terdiri
dari 10.000 transaksi asli dan 10 transaksi penipuan, penggolong akan cenderung
mengklasifikasikan transaksi penipuan sebagai transaksi asli. Misalkan algoritma
pembelajaran mesin memiliki dua kemungkinan output sebagai berikut:
1. Model 1 mengklasifikasikan 7 dari 10 transaksi penipuan sebagai transaksi asli
dan 10 dari 10.000 transaksi asli sebagai transaksi penipuan.
2. Model 2 mengklasifikasikan 2 dari 10 transaksi penipuan sebagai transaksi asli
dan 100 dari 10.000 transaksi asli sebagai transaksi penipuan.
Agar lebih jelas, hasil klasifikasi kedua model tersebut akan digambarkan ke
dalam confusion matrix pada Tabel 2.2 dan Tabel 2.3.
Jika kinerja classifier ditentukan oleh jumlah kesalahan, maka jelas Model 1 lebih
baik karena hanya membuat total 17 kesalahan sementara Model 2 membuat 102
kesalahan. Namun, karena perusahaan ingin meminimalkan jumlah transaksi
penipuan terjadi, maka harus memilih Model 2 sebagai gantinya yang hanya
membuat 2 kesalahan mengklasifikasikan transaksi penipuan. Tentu saja ini dapat
mengorbankan transaksi yang lebih asli yang diklasifikasikan sebagai transaksi
penipuan, tetapi hal ini akan menjadi biaya yang dapat ditanggung perusahaan
untuk saat ini.
Bagaimanapun, algoritma pembelajaran mesin umum hanya akan memilih Model
1 dari Model 2 karena error rate Model 1 lebih kecil daripada Model 2. Dalam
praktiknya, ini berarti kita akan membiarkan banyak transaksi penipuan berjalan
meskipun kita bisa menghentikan mereka dengan menggunakan Model 2. Hal ini
akan menyebabkan kerugian pada perusahaan yang disebabkan oleh
ketidakseimbangan data.
DAFTAR PUSTAKA