BAB II Tinjauan Pustaka - G11mrf

PENDAHULUAN yang diklasifikasikan antara lain klasik, rock,
jazz dan country dengan akurasi tertinggi yang

Latar Belakang
dihasilkan sebesar 80 %. Berdasarkan penelitian
Genre musik adalah pengelompokan musik yang terkait, metode MFCC dan LVQ dapat
sesuai dengan kemiripan satu dengan yang lain, digunakan untuk klasifikasi genre musik.
seperti kemiripan dalam hal frekuensi musik,
Rumusan Masalah
struktur ritmik, dan konten harmoni. Genre
musik merupakan hal yang penting bagi Rumusan masalah dalam penelitian ini
masyarakat yang menyukai musik, karena adalah bagaimana membuat model klasifikasi
membuat masyarakat dengan mudah data audio menggunakan jaringan syaraf tiruan
mengelompokan musik yang yang mereka LVQ.
sukai.
Ruang Lingkup
Pada umumnya pengelompokan lagu
Ruang lingkup pada penelitian ini antara
dilakukan secara manual yaitu dengan
lain:
mendengarakan lagu secara langsung kemudian
dikelompokkan bedasarkan genre lagu tersebut. 1. Dalam penelitian ini, genre musik yang
Metode ini mempunyai keunggulan yaitu diklasifikasikan dibatasi hanya genre rock,
mempunyai tingkat akurasi yang tinggi, tetapi klasik, jazz dan keroncong.
kekurangan dari metode ini adalah sangat tidak 2. Musik yang diolah mempunyai durasi 5, 10,
efisien untuk data berjumlah banyak, karena 20, dan 25 detik dengan format wav.
harus didengarkan satu persatu. Pengelompokan 3. Data musik menggunakan chanel mono.
genre lagu secara otomatis mulai dikembangkan
untuk membantu mengelompokan lagu yang Tujuan
berjumlah banyak. Proses ini mempunyai Tujuan dari penelitian ini adalah
keunggulan dalam jumlah data yang bisa mengembangkan model Learning Vector
diporses namun kekurangan dari proses Quantization untuk klasifikasi genre musik.
otomatis adalah akurasi yang rendah.
Manfaat
Untuk dapat dikelompokkan data musik
harus melalui proses ekstraksi ciri yang Penelitian ini diharapkan dapat melakukan
bertujuan mendapatkan ciri dari lagu tersebut. klasifikasi pada data musik menggunakan
Salah satu metode yang dapat digunakan adalah Learning Vector Quantization agar dapat
Mel-frequency cepstral coefficient (MFCC). membantu peran manusia dalam hal
MFCC mengekstraksi ciri suara berdasarkan menentukan genre musik, sehingga genre musik
spektrum yang dihasilkan dari musik. Penelitian tidak lagi bersifat relatif, tetapi dapat
yang menggunakan MFCC dalam proses dikelompokkan dengan standardisasi yang telah
ekstraksi ciri antara lain, Prameswari (2010) ditentukan.
yang melakukan penelitian pengembangan TINJAUAN PUSTAKA
sistem pengenalan kata berbasis fonem dalam
bahasa Indonesia dengan metode resilent Genre Musik
backpropagation, dan Wisnudhisastra (2009) Genre musik adalah label yang dibuat dan
tentang pengenalan chord gitar dengan teknik digunakan manusia untuk mengkategorikan dan
ekstraksi ciri Mel-frequency cepstral coefficient menggambarkan musik di dunia (Tzanekatis
(MFCC). 2002). http://allmusic.com mengelompokan
Leaning Vector Quantization (LVQ) genre musik ke dalam 11 genre utama, yaitu
merupakan salah satu contoh dari jaringan pop/rock, jazz, r&b, rap, country, blues,
syaraf tiruan yang digunakan untuk proses elektronik, latin, reggae, internasional, dan
klasifikasi. Metode LVQ sudah banyak klasik.
digunakan untuk penelitian, seperti penelitian Digitalisasi Gelombang Audio
oleh Effedy et al (2008) mengenai deteksi
pornografi pada citra digital menggunakan Gelombang audio merupakan gelombang
pengolahan citra dan jaringan syaraf tiruan, longitudinal yang merambat melalui medium
Qur’ani & Rosmalinda (2010) yang meneliti seperti medium padat, cair, atau gas.
jaringan syaraf tiruan LVQ untuk aplikasi Gelombang suara merupakan gelombang analog
pengenalan tanda tangan. yang apabila diolah menggunakan peralatan
elektronik, gelombang tersebut harus melalui
Klasifikasi genre musik telah dilakukan oleh tahap digitalisasi sehingga gelombang tersebut
Talupur et al (2002). Pada penelitian ini genre berupa data digital.
1
Dalam proses digitalisasi audio, gelombang Sinyal Kontinu
audio melalui dua tahap proses yaitu sampling
dan kuantisasi (Jurafsky & Martin 2000).
Sampling merupakan proses pengambilan nilai
dalam jangka waktu tertentu. Nilai yang Frame Blocking
dimaksud adalah amplitudo, yaitu besarnya
volume suara pada suatu waktu. Proses
sampling menghasilkan sebuah vektor yang frame
menyatakan nilai – nilai hasil sampling. Vektor
tersebut mempunyai panjang yang bergantung
pada lamanya sinyal dan sampling rate yang Windowing
digunakan. Sampling rate sendiri adalah
banyaknya nilai yang diambil setiap detiknya.
Untuk mengukur panjang vektor sinyal,
digunakan rumus beikut:
Fast Fourier
𝑆 = 𝐹𝑠 × 𝑇 Transform
dengan
S = panjang vektor spectrum
𝐹𝑠 = sampling rate (Hertz)
T = panjang sinyal (detik) Mel Frequency
Wrapping
Tahap selanjutnya adalah proses kuantisasi.
Kuantisasi bertujuan menyimpan nilai
mel spctrum
amplitudo ke dalam representasi nilai 8 bit atau
16 bit (Jurafsky & Martin 2000).
Ekstraksi Ciri Sinyal Audio Cepstrum
Ekstraksi ciri berfungsi mengkarakterisasi

sinyal audio. Beberapa fitur sinyal audio yang
mel spectrum
biasa digunakan antara lain Linear Predictive
Coding, Perceptual Linear Prediction, dan Mel-
Frequency. Proses ini dilakukan karena sinyal
audio merupakan sinyal yang bervariasi yang Gambar 1 Diagram blok proses MFCC (Do
diwaktukan dengan lambat. Jadi pada jangka 1994)
waktu yang sangat pendek (5–100 ms),
karakteristik sinyal tersebut hampir sama, tetapi
dalam jangka waktu yang lebih panjang (0,2 Tahap-tahap dari proses MFCC dapat
detik atau lebih), karakteristik sinyal audio dijelaskan sebagai berikut (Do 1994):
tersebut berubah dan memperlihatkan 1. Frame Blocking, proses ini membagi sinyal
perbedaan sinyal audio yang diolah (Do 1994). audio ke dalam frame. Tiap frame terdiri
Mel-Frequency Cepstrum Coefficient (MFCC) atas N sample. Gambar 2 menggambarkan
ilustrasi dari proses frame blocking.
Tujuan dari MFCC adalah mengadapatasi
kemampuan telinga manusia dalam mendengar
dan mengolah suara. Proses MFCC dapat dilihat
pada Gambar 1.
Gambar 2 Proses Frame Blocking
2
2. Windowing, pada tahap ini sinyal yang telah 4. Mel-Frequency Wrapping. Berdasarkan
dibagi ke dalam frame dilakukan proses studi psikofisik, persepsi manusia terhadap
windowing untuk meminimalkan frekuensi sinyal audio tidak berupa skala
diskontinuitas sinyal, dengan cara linier. Jadi untuk setiap nada dengan
meminimalkan distorsi spectral dengan frekuensi aktual f (dalam Hertz) dapat
menggunakan window untuk memperkecil diukur tinggi subjektifnya menggunakan
sinyal hingga mendekati nol pada awal dan skala ‘mel’. Skala mel-frequency adalah
akhir tiap frame. Window yang dipakai pada selang frekuensi di bawah 1000 Hz, dan
proses ini adalah Hamming window dengan selang logaritmik untuk frekuensi di atas
persamaan : 1000 Hz. Gambar 5 mengilustrasikan filter
pada proses mel- frequency wrapping.
𝑤 𝑛 = 0,54 − 0,46 𝑐𝑜𝑠 (2𝜋𝑛/(𝑁 − 1))
(1)
Dengan n = 1, 2, 3... N-1 (N adalah jumlah
frame yang digunakan)
Ilustrasi dari Hamming window dapat dilihat
pada Gambar 3.
Gambar 5 Mel - frequency filter

Proses wrapping terhadap sinyal dalam
domain frekuensi menggunakan persamaan
berikut :
𝑁−1
Gambar 3 Hamming window 𝑋𝑖 = 𝑙𝑜𝑔10 𝑥 𝑘 𝐻𝑖 (𝑘)
3. Fast Fourier Transform (FFT), merupakan 𝑘=0
fast algorithm dari Discrete Fourier (3)
Transform (DFT) yang berguna untuk dengan i= 1,2,3...,M (M adalah jumlah filter
konversi setiap frame dari domain waktu segitiga) dan Hi (k) adalah nilai filter segitiga
menjadi domain frekuensi. Berikut untuk frekuensi akustik sebesar k.
persamaan yang digunakan :
5. Cepstrum, tahap ini menkonversikan log
𝑁−1
mel spectrum ke dalam domain waktu Hasil
𝑋𝑛 = 𝑥𝑘 𝑒 −2𝜋𝑗𝑘𝑛 /𝑁 proses ini disebut mel frequency cepstrum
𝑘=0 coefficients. Berikut ini adalah persamaan
(2) yang digunakan dalam DCT :
dengan n=0, 1, 2 ... N-1, j adalah bilangan 𝑀
𝜋
imajiner, yaitu j = − 1. 𝐶𝑗 = 𝑋𝑖 𝑐𝑜𝑠(𝑗(𝑖 − 1)/2 )
𝑀
Gambar 4 memperlihatkan sinyal yang 𝑗 =1
sudah berubah ke dalam domain frekuensi. (4)

dengan j= 1,2,3, . . . K (K adalah jumlah
koefisien yang diingankan) dan M adalah
jumlah filter.
Gambar 4 Sinyal audio dalam domain

frekuensi
3
Klasifikasi input (Widodo 2005). Ilustrasi dari jaringan
LVQ dapat dilihat pada Gambar 7.
Klasifikasi merupakan proses menemukan
sekumpulan model (atau fungsi) yang
menggambarkan dan membedakan konsep atau
kelas-kelas data, dengan tujuan agar model
tersebut dapat digunakan untuk memprediksi
kelas dari suatu objek atau data yang label
kelasnya tidak diketahui (Han & Kamber 2001).
Klasifikasi terdiri atas dua tahap, yaitu
pelatihan dan prediksi (klasifikasi). Pada tahap
pelatihan dibentuk sebuah model domain
permasalahan dari setiap instance yang ada.
Penentuan model tersebut berdasarkan analisis
pada sekumpulan data pelatihan, yaitu data yang
label kelasnya telah diketahui. Pada tahap Gambar 7 Arsitektur jaringan LVQ (Widodo
klasifikasi, dilakukan prediksi kelas dari 2005)
instance (kasus) baru yang telah dibuat pada Algoritme pelatihan LVQ bertujuan
tahap pelatihan (Güvnir et al 1998). memperoleh unit output yang paling dekat
Jaringan Syaraf Tiruan dengan vektor input. Bila x dan wc berasal dari
kelas yang sama, maka vektor bobot didekatkan
Jaringan syaraf tiruan (JST) adalah sistem ke vektor input, tetapi apabila berasal dari kelas
pemroses informasi yang memiliki karakteristik yang berbeda, maka vektor bobot akan
mirip dengan jaringan syaraf biologi. JST dijauhkan dengan vektor input.
dibentuk sebagai generalisasi model matematika
dari jaringan syaraf biologi, dengan asumsi Kelebihan dari LVQ adalah:
bahwa: 1. nilai error yang lebih kecil dibandingkan
 Pemrosesan informasi terjadi pada banyak dengan jaringan syaraf tiruan seperti
elemen sederhana (neuron). backpropagation.
2. Dapat meringkas data set yang besar
 Sinyal dikirimkan di antara neuron-neuron
menjadi vektor codebook berukuran kecil
melalui penghubung-penghubung (sinapsis).
untuk klasifikasi.
 Untuk menentukan output, setiap neuron
3. Dimensi dalam codebook tidak dibatasi
menggunakan fungsi aktivasi (Jong 1992).
seperti dalam teknik nearest neighbour.
Arsitektur jaringan syaraf tiruan disajikan 4. Model yang dihasilkan dapat diperbaharui
pada Gambar 6. secara bertahap.
Kekurangan dari LVQ adalah:
1. Dibutuhkan perhitungan jarak untuk seluruh
atribut.
2. Akurasi model dangan bergantung pada
inisialisasi model serta parameter yang
digunakan (learning rate, iterasi, dan
sebagainya).
3. Akurasi juga dipengaruhi distribusi kelas
Gambar 6 Arsitektur JST sederhana (Jong
pada data training.
1992)
4. Sulit untuk menentukan jumlah codebook
Learning Vector Quantization (LVQ) vektor untuk masalah yang diberikan.
Learning Vector Quantization (LVQ) Algoritme LVQ
merupakan suatu metode klasifikasi pola yang
Berikut ini adalah algoritme dari LVQ :
masing-masing unit output mewakili kategori
atau kelas tertentu. Vektor bobot untuk unit  Diinisialisasikan nilai bobot, maksimum
output sering disebut vektor referensi untuk epoch, dan learning rate,
kelas yang dinyatakan oleh unit tersebut. LVQ  Nilai input (m,n), dan kelas target
mengklasifikasikan vektor input dalam kelas dimasukkan ke dalam vector (1,n)
yang sama dengan unit output yang memiliki  Selama kondisi berhenti bernilai salah,
vektor bobot yang paling dekat dengan vektor dilakukan :
4
a. Untuk masing-masing pelatihan Informasi tersebut didapatkan dari buku, jurnal,
vektor input x internet dan artikel-artikel yang membahas
b. Dicari j sehingga ||x-wj|| bernilai klasifikasi genre musik.
minimum
Mulai
c. Perbaiki wj dengan :
1. Jika T = cj maka
wj baru =wj lama + Studi Pustaka
α x-wj lama
Perumusan Masalah
2. Jika T ≠ cj
wj baru =wj lama -
Data Musik
α x-wj lama
d. Learning rate dikurangi

Praproses
e. Kondisi berhenti dilihat
K-fold Cross Validation

Pembagian data
(K-fold cross validation)
Metode k-fold cross validation membagi
data menjadi k-buah subset, sebanyak k-1 buah
subset digunakan sebagai training set dan 1
buah set sebagai testing set (Guiterez 2000).
Data Latih Data Uji
Sebagai gambaran, pada Gambar 8 terdapat
ilustrasi k-fold cross validation menggunakan 4
buah fold. LVQ
Pelatihan Klasifikasi
Evaluasi
Selesai
Gambar 9 Metodologi penelitian
Gambar 8 Contoh cross validation dengan 4 Perumusan Masalah

fold Pada tahap ini dilakukan analisis terhadap
Confusion Matrix permasalahan seperti pemilihan data musik,
pemilihan bagian yang akan dijadikan data latih
Confusion matrix mengandung informasi dan data uji.
tentang aktual dan prediksi klasifikasi yang
dilakukan oleh sistem. Hasil dari sebuah sistem Data Musik
sering dievaluasi menggunakan confusion Data yang digunakan pada penelitian ini
matrix (Kohavi and Provost 1998). berjumlah 80 buah data yang dibagi ke dalam 4
buah genre yaitu, keroncong, jazz, klasik, dan
rock, (masing–masing genre terdiri atas 20 buah
METODE PENELITIAN lagu). Penulis menggunakan 4 buah genre
Penelitian ini melalui beberapa tahapan dikarenakan penelitian ini dimaksudkan sebagai
proses. Tahapan proses yang dilakukan dalam model awal penelitian klasifikasi genre musik.
penelitian ini disajikan pada Gambar 9. Setelah data dikumpulkan proses selanjutnya
adalah memotong durasi dari tiap lagu secara
Studi Pustaka random, menjadi 5, 10, 20 dan 25 detik dengan
Pada tahap ini, kegiatan yang dilakukan menggunakan software Audacity.
adalah mengumpulkan semua informasi atau
literatur yang terkait dalam penelitian.

BAB II Tinjauan Pustaka - G11mrf

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

BAB II Tinjauan Pustaka - G11mrf

Diunggah oleh

Hak Cipta:

Format Tersedia

PENDAHULUAN yang diklasifikasikan antara lain klasik, rock,

jazz dan country dengan akurasi tertinggi yang

Ekstraksi ciri berfungsi mengkarakterisasi

Gambar 2 Proses Frame Blocking

Gambar 5 Mel - frequency filter

sudah berubah ke dalam domain frekuensi. (4)

Gambar 4 Sinyal audio dalam domain

d. Learning rate dikurangi

K-fold Cross Validation

Gambar 9 Metodologi penelitian

Gambar 8 Contoh cross validation dengan 4 Perumusan Masalah

Anda mungkin juga menyukai