Anda di halaman 1dari 23

Tugas Mata Kuliah Pengantar Pemrosesan Data Multimedia

Implementasi Proses Ekstraksi Fitur pada File Audio Digital

Disusun oleh:

Dewa Ayu Putri Diah Pramesti

NIM. 1908561035

Dosen Pengampu

Dr. Anak Agung Istri Ngurah Eka Karyawati, S.Si., M.Eng.

Luh Arida Ayu Rahning Putri, S.Kom., M.Cs.

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS UDAYANA

2021
BAB I
PENDAHULUAN

1.1 Latar Belakang


Di era digital, tentunya perkembangan teknologi terus berkembang mengikuti
zaman dan harus selalu disesuaikan dengan kebutuhan. Banyak perangkat serba digital
yang banyak ditemukan dan digunakan di masyarakat. Salah satu bidang yang kini
semakin berkembang adalah bidang multimedia. Multimedia merupakan sebuah sarana
yang digunakan untuk berkomunikasi, yang biasanya mengintegrasikan teks, grafik,
gambar, animasi audio, dan lainnya. Dari beberapa elemen tersebut, salah satu elemen
yang paling banyak digunakan dan mengalami perkembangan adalah audio. Beberapa
contoh dari pengimplementasian audio yang paling sering dijumpai adalah musik dan
speech. Musik memiliki beberapa jenis genre yang berbeda, seperti contohnya pop,
rock, dangdut, classic, jazz, lo-fi, dan yang lainnya. Sedangkan speech biasanya
dibedakan sesuai dengan gender si pembicara, yaitu laki-laki dan perempuan.
Karena banyaknya genre musik yang dapat ditemukan, perlu dilakukan sebuah
penggolongan berkas musik agar dapat membedakannya. Begitu pula dengan speech,
di mana penggolongan juga dilakukan. Sebelum penggolongan tersebut dilakukan,
terdapat sebuah proses yang harus dijalankan dengan tujuan untuk mendapatkan sebuah
nilai-nilai atribut dari file audio sehingga genre serta jenis musik dan speech dapat
dibedakan antara file yang satu dengan yang lainnya. Proses tersebut dinamakan proses
ekstraksi fitur. Ekstraksi fitur merupakan sebuah proses untuk mengambil ciri atau fitur
dari suatu bentuk yang mana hasilnya akan digunakan ke proses selanjutnya setelah
sebuah analisis dilakukan. Ciri atau fitur yang diekstraksi harus memiliki sifat yang
padat, komprehensif, dan efektif. Terdapat dua cara untuk melakukan ekstraksi fitur
pada file audio digital, yakni berdasarkan domain waktu dan domain frekuensi. Dalam
laporan ini, fitur yang akan diekstraksi pada masing-masing file musik dan speech
adalah amplitude envelope dan spectral centroid. Dengan melakukan ekstraksi pada
kedua fiur ini, audio akan jauh lebih mudah untuk digolongkan.
1.2 Rumusan Masalah
1.2.1 Apa perbedaan dari implementasi proses ekstraksi fitur pada file speech yang
berasal dari dua gender berbeda?
1.2.2 Apa perbedaan dari implementasi proses ekstraksi fitur pada file musik yang
memiliki dua genre berbeda?
1.2.3 Apa perbedaan dari implementasi proses ektraksi fitur antara file musik dan file
speech menggunakan python?
1.3 Tujuan
1.3.1 Untuk dapat mengetahui perbedaan hasil implementasi ekstraksi fitur pada file
speech yang berasal dari dua gender berbeda.
1.3.2 Untuk dapat mengetahui perbedaan hasil implementasi ekstraksi fitur pada file
musik yang memiliki dua genre berbeda.
1.3.3 Untuk dapat mengetahui perbedaan hasil implementasi ekstraksi fitur antara file
musik dan file speech menggunakan python.
1.4 Manfaat
1.4.1 Bagi penulis
Penulis dapat mengetahui proses ekstraksi fitur pada audio digital lebih lanjut dan
dapat dijadikan sebagai sarana pembelajaran.
1.4.2 Bagi pembaca
Pembaca dapat memperoleh sebuah pengetahuan baru mengenai teori dan
implementasi dari ekstraksi fitur pada audio digital.
1.4.3 Bagi masyarakat
Masyarakat dapat mengimplementasikan proses ekstraksi fitur yang telah didapat
dari laporan ini di kehidupan sehari-hari.
BAB II
LANDASAN TEORI

2.1 Ekstraksi Fitur


Feature Extraction atau biasa disebut ekstraksi fitur merupakan suatu proses
pengambilan ciri atau karakteristik dari suatu data yang dapat merepresentasikan
informasi penting untuk selanjutnya dimanfaatkan dalam kebutuhan proses analisa data
maupun klasifikasi. Hasil dari ekstraksi fitur akan menentukan kelas dari sinyal input
yang masuk. Proses ekstraksi fitur juga melibatkan analisis input dari sinyal audio.
Ekstraksi fitur memiliki fungsi untuk mengkarakterisasi sinyal audio pada file audio
digital. Dilakukannya ekstraksi fitur tidak lain larena sinyal audio merupakan sebuah
sinyal yang memiliki variasi beragam yang diwaktukan dengan lambat.
Agar dapat melakukan ekstraksi fitur pada file audio, terdapat beberapa
representasi dari file audio yang digunakan, yaitu sample rate dan format file.
Implementasi pada laporan ini akan mengekstraksi fitur amplitude envelope dan
spectral centroid. Format file audio yang digunakan pada proses ekstraksi fitur adalah
format WAV karena format audio tersebut merupakan salah satu format yang belum
dikompresi sehingga seluruh sampel audio disimpan di media penyimpanan dalam
bentuk digital. Dalam format audio WAV, terdapat sebuah informasi yang dinamakan
sample rate. Sample rate mrupakan banyaknya jumlah data yang dibawa tiap detik dari
sinyal yang diterima. Hz merupakan satuan dari sampling rate dan nilai dari sample rate
yang biasa digunakan adalah 44100 Hz. Tersedianya sampling rate dan format file
membuat file audio dapat direpresentasikan proses ekstraksi fitur dapat dilakukan.
2.2 Amplitude Envelope
Amplitudo envelope berarti perubahan amplitudo suara dari waktu ke waktu,
yang termasuk atribut yang berpengaruh karena mempengaruhi persepsi timbre. Timbre
merupakan ciri khas suara yang dapat menunjukkan keunikan setiap suara, sehingga
dapat membedakan satu suara dengan suara lainnya. Amplitudo envelope termasuk
salah satu properti suara yang penting karena memungkinkan kita untuk dengan mudah
mengenali suara dan membedakannya dengan suara lain. Misalnya, kita dapat dengan
mudah mengenali suara gitar dan membedakannya dari suara terompet. Selain itu,
envelope biasanya digunakan untuk mengontrol bagian gelombang yang ingin
diperkuat. Loudness mengacu pada kenyaringan suara, yang terkait erat dengan
amplitudo gelombang atau intensitas suara. Dalam ekstraksi fitur amplitudo amplitudo,
dapat digunakan untuk mengukur tingkat kenyaringan dari file audio yang diekstraksi.
Selain itu, dapat juga digunakan untuk mengelompokkan genre musik. Berikut
merupakan rumus umum dari amplitudo envelope:

Keterangan:
𝐴𝐸𝑡 : amplitude envelope pada frame t
𝑆(𝐾) : ampritude di sampel K
𝐾 : jumlah sampel dalam 1 frame (frame size)
2.3 Spectral Centroid
Spectral centroid adalah fungsi yang merepresentasikan sebuah titik pada
spektrum, dan sebagian besar energinya terkonsentrasi pada titik tersebut. Spectral
centroid sendiri merupakan sebuah konsep yang diekstrak dari konsep music dan
psychoacoustics, yaitu titik keseimbangan spektrum yang digunakan untuk mengukur
ketajaman spektrum. Biasanya hal ini berkaitan dengan kejernihan atau kejelasan
spectral. Semakin tinggi nilai spectral centroid maka suara akan menjadi semakin jelas
dan tajam. Kecerahan atau ketajaman suara digambarkan sebagai kebalikan dari tingkat
kebisingan suara. Secara umum, sentroid spektral memiliki persamaan yang
didefinisikan sebagai berikut:

Di mana n adalah nilai indeks bit, 𝐶𝑡 adalah nilai spectral centroid pada frame
ke-t, N adalah jumlah total bit yang ada, 𝑀𝑡 [𝑛] adalah nilai dari transformtasi Fourier
pada frame ke tdan indeks bit ke n.
BAB III
DESAIN DAN IMPLEMENTASI

3.1 Desain Sistem


Ada beberapa tahapan yang harus dilakukan sebelum melakukan implementasi
proses ekstraksi fitur. Tahapan-tahapan tersebut adalah tahap merepresentasikan file
audio yang akan diekstraksi, tahap preprocessing, dan tahap ekstraksi fitur. Dua hal
yang perlu diperhatikan ketika ingin melakukan representasi audio adalah sampling rate
dan format file. Format file audio yang digunakan pada proses ekstraksi fitur adalah
format WAV karena format audio tersebut merupakan salah satu format yang belum
dikompresi sehingga seluruh sampel audio disimpan di media penyimpanan dalam
bentuk digital.
Setelah menentukan file audio yang akan digunakan, selanjutnya adalah
melakukan sampling rate. Sampling rate mrupakan sebuah cara untuk menentukan
jumlah sampel per detik yang diambil dari sinyal kontinu untuk membuat sinyal diskrit
atau digital. Ketika tahap preprocessing dilakukan, data sampel dari file WAV akan
diambil untuk diolah dengan pembagian data sampel menjadi beberapa bagian yang
lebih kecil, yaitu frame. Pada masing-masing frame nantinya akan dilakukan ekstraksi
fitur pada file audio yang dimasukkan.
Dalam implementasi proses fitur ekstraksi ini, jenis fitur yang akan diekstraksi
adalah fitur amplitude envelope dan spectral centroid. File yang digunakan adalah file
audio dengan format WAV yang berjumlah 16 dengan karakteristik dan golongan yang
berbeda. File audio tersebut terdiri atas dua file speech dengan gender berbeda dan dua
file musik dengan genre berbeda. Pada masing-masing file terdiri atas empat file speech
perempuan, empat file speech laki-laki, empat file musik genre rock, dan empat file
musik genre jazz. Proses ekstraksi fitur di sini diimplementasikan dengan bahasa
pemrograman python menggunakan IDLE Python.
3.2 Preprocessing
Sebelum melakukan proses ekstraksi fitur, tahap pertama yang harus dilakukan
adalah preprocessing. Dalam tahap ini, file audio dengan format WAV akan diinput
sesuai dengan jenis genrenya masing-masing dan akan menghasilkan output yang
berbentuk sample rate dan data sample yang telah dibagi menjadi bagian-bagian yang
lebih kecil, yaitu frame. Sample rate akan didapat dari proses pembacaan fle WAV yang
nantinya akan digunakan untuk menentukan panjang frame. Berikut adalah proses dari
tahapan preprocessing:
1. Melakukan import Library

Library yang digunakan untuk melakukan proses ektraksi fitur


amplitude envelope dan spectral centroid adalah Librosa. Keduanya
menggunakan library yang sama. Librosa merupakan salah satu library dari
bahasa Python untuk melakukan pemprosesan audio. Fungsi Librosa adalah
untuk menganalisis dan mengekstrak fitur sinyal audio. Library lain yang
digunakan selain Librosa adalah IPython.display untuk gambit,
matplotlib.pyplot untuk melakukan plotting, dan numpy untuk melakukan
operasi vector dan matriks dengan mengolah array multidimensi.
2. Melakukan load audio file

Agar dapat memuat file audio, fungsi yang digunakan adalah


librosa.load dengan sampling rate dan file audio yang telah diambil dari tempat
di mana file audio tersebut disimpan. Biasanya sampling rate yang digunakan
adalah 22050. Digunakan pula fungsi ipd.Audio agar program dapat
menghasilkan output file audio.
3. Menentukan frame size dan hop length

Frame size yang digunakan dalam program ini adalah 1024 dan hop
length yang digunakan adalah 512.
3.3 Ekstraksi Fitur Amplitude Envelope
Amplitudo envelope berarti perubahan amplitudo suara dari waktu ke waktu,
yang termasuk atribut yang berpengaruh karena mempengaruhi persepsi timbre. Timbre
merupakan ciri khas suara yang dapat menunjukkan keunikan setiap suara, sehingga
dapat membedakan satu suara dengan suara lainnya. Amplitudo envelope termasuk
salah satu properti suara yang penting karena memungkinkan kita untuk dengan mudah
mengenali suara dan membedakannya dengan suara lain. Ada pun tahapan dalam
melakukan proses ekstraksi fitur amplitude envelope adalah sebagai berikut:
1. Visualisasi Waveforms

Figsize yang digunakan untuk memvisualisasikan waveforms atau


bentuk gelombang adalah lebar 15 dan tinggi 7.
2. Kalkulasi Amplitude Envelope

Amplitude envelope memiliki rumus seperti yang tertera sebelumnya.


Amplitude envelope dapat dikalkulasi untuk frame yang ada, lalu kalkulasi
tersebut dapat diaplikasikan pada file audio.
3. Visualisasi Amplitude Envelope

Setelah melakukan kalkulasi amplitude envelope, selanjutnya akan


dilakukan visualisasi amplitude envelope dengan cara mendefinisikan frame
sesuai dengan range amplitude envelope pada file audio. Untuk membedakan
amplitude envelope pada grafik yang akan ditampilkan, warna dari amplitude
envelope dapat diatur.
3.4 Ekstraksi Fitur Spectral Centroid
Setelah dilakukannya tahap preprocessing dengan cara yang sama untuk file
audio musik atau pun speech, proses ekstraksi fitur spectral centroid juga dilakukan
dengan beberapa tahapan. Spectral centroid adalah fungsi yang merepresentasikan
sebuah titik pada spektrum, dan sebagian besar energinya terkonsentrasi pada titik
tersebut. Spectral centroid sendiri merupakan sebuah konsep yang diekstrak dari
konsep music dan psychoacoustics, yaitu titik keseimbangan spektrum yang digunakan
untuk mengukur ketajaman spektrum. Ada pun tahapan dalam melakukan proses
ekstraksi fitur spectral centroid adalah sebagai berikut:
1. Melakukan Kalkulasi Spectral Centroid

Untuk melakukan spectral centroid, dapat digunakan sebuah fungsi yang


bernama librosa.feature.spectral_centroid dengan parameter sample rate, frame
size, dan hop length.
2. Visualisasi Spectral Centroid

Untuk mendapatkan hasil dari ekstraksi fitur spectral centroid, dapat digunakan
fungsi plt.figura dengan parameter figsize, plt.plot dengan parameter t, spectral
centroid yang sesuai dengan file audio yang diinputkan, dan warna yang akan
digunakan pada grafik, dan menggunakan fungsi plt.show. Dalam visualisasi
spectral centroid, terdapat t dan frames yang harus didefinisikan terlebih dahulu.
BAB IV
HASIL DAN PEMBAHASAN

4.1 Ekstraksi Fitur pada File Speech


Setelah dilakukannya desain serta implementasi proses ekstraksi fitur pada file,
maka akan dilakukan pengujian terhadap masing-masing file musik dan file speech.
Fitur yang akan diekstraksi adalah amplitude envelope dan spectral centroid. Ekstraksi
fitur ini akan dilakukan pada 16 file musik yang berbeda. Empat file speech gender
wanita, empat file speech gender pria, empat file musik jazz, dan empat file musik rock.
Karakteristik dari masing-masing file audio dapat dibandingkan melalui visualisasi
grafik ekstraksi fiturnya. Dalam visualisasi grafik ekstraksi fitur dalam laporan ini,
amplitude envelope dilambangkan dengan grafik warna hijau dan waveform dari file
audio dilambangkan dengan warna biru. Berikut ini adalah proses ekstraksi fitur dari
file speech:
4.1.1 Ekstraksi Fitur pada File Speech Gender Wanita
Di bawah ini merupakan hasil dari implementasi proses ekstraksi fitur
untuk empat file speech gender wanita:
1. File Female Speech 1
 Amplitude envelope dari file female speech 1

 Spectral centroid dari file female speech 1


2. File Female Speech 2
 Amplitude envelope dari file female speech 2

 Spectral centroid dari file female speech

3. File Female Speech 3


 Amplitude envelope dari file female speech 3
 Spectral centroid dari file female speech 3

4. File Female Speech 4


 Amplitude envelope dari file female speech 4

 Spectral centroid dari file female speech 4


4.1.2 Ekstraksi Fitur pada File Speech Gender Pria
Di bawah ini merupakan hasil dari implementasi proses ekstraksi fitur
untuk empat file speech gender pria:
1. File Male Speech 1
 Amplitude envelope dari file male speech 1

 Spectral centroid dari file male speech 1

2. File Male Speech 2


 Amplitude envelope dari file male speech 2
 Spectral centroid dari file male speech 2

3. File Male Speech 3


 Amplitude envelope dari file male speech 3

 Spectral centroid dari file male speech 3


4. File Male Speech 4
 Amplitude envelope dari file male speech 4

 Spectral centroid dari file male speech 4

4.1 Ekstraksi Fitur pada File Musik


Setelah dilakukannya desain serta implementasi proses ekstraksi fitur pada file,
maka akan dilakukan pengujian terhadap masing-masing file musik dan file speech.
Fitur yang akan diekstraksi adalah amplitude envelope dan spectral centroid. Ekstraksi
fitur ini akan dilakukan pada 16 file musik yang berbeda. Empat file speech gender
wanita, empat file speech gender pria, empat file musik jazz, dan empat file musik rock.
Karakteristik dari masing-masing file audio dapat dibandingkan melalui visualisasi
grafik ekstraksi fiturnya. Dalam visualisasi grafik ekstraksi fitur dalam laporan ini,
amplitude envelope dilambangkan dengan grafik warna hijau dan waveform dari file
audio dilambangkan dengan warna biru. Berikut ini adalah proses ekstraksi fitur dari
file musik:
4.2.1 Ekstraksi Fitur pada File Musik Genre Jazz
Di bawah ini merupakan hasil dari implementasi proses ekstraksi fitur
untuk empat file musik genre Jazz:
1. File Musik Jazz 1
 Amplitude envelope dari file musik jazz 1

 Spectral centroid dari file musik jazz 1

2. File Musik Jazz 2


 Amplitude envelope dari file musik jazz 2
 Spectral centroid dari file musik jazz 2

3. File Musik Jazz 3


 Amplitude envelope dari file musik jazz 3

 Spectral centroid dari file musik jazz 3


4. File Musik Jazz 4
 Amplitude envelope dari file musik jazz 4

 Spectral centroid dari file musik jazz 4

4.2.2 Ekstraksi Fitur pada File Speech Genre Rock


Di bawah ini merupakan hasil dari implementasi proses ekstraksi fitur
untuk empat file musik genre rock:
1. File Musik Rock 1
 Amplitude envelope dari file musik rock 1
 Spectral centroid dari file musik rock 1

2. File Musik Rock 2


 Amplitude envelope dari file musik rock 2

 Spectral centroid dari file musik rock 2


3. File Musik Rock 3
 Amplitude envelope dari file musik rock 3

 Spectral centroid dari file musik rock 3

4. File Musik Rock 4


 Amplitude envelope dari file musik rock 4
 Spectral centroid dari file musik rock 4
BAB V
KESIMPULAN

5.1 Kesimpulan
Ada pun beberapa kesimpulan yang dapat ditarik setelah melakukan pengujian
dari proses ekstraksi fitur adalah sebagai berikut:
1. Terdapat perbedaan saat melakukan pengujian proses ekstraksi fitur pada file
audio dengan dua gender yang berbeda. File audio speech bergender wanita
memiliki tingkat amplitude envelope dan spectral centroid yang lebih tinggi.
Sebaliknya, file audio speech bergender pria memiliki tingkat amplitude
envelope dan spectral centroid yang lebih rendah.
2. Terdapat perbedaan saat melakukan pengujian proses ekstraksi fitur pada file
audio dengan genre musik yang berbeda. File audio bergenre musik jazz
memiliki tingkat amplitude envelope dan spectral centroid yang lebih rendah.
Sebaliknya, file audio bergenre musik rock memiliki tingkat amplitude
envelope dan spectral centroid yang lebih tinggi. Musik rock memiliki nilai
spectral centroid yang tinggi diakibatkan oleh spectral yang tajam.
3. Perbedaan yang dapat dilihat saat melakukan pengujian proses ekstraksi fitur
pada file musik dan speech terletak pada spectral centroid. Nilai spectral
centroid dari file speech cenderung lebih tinggi dikarenakan suara yang jelas
dan tajam dibandingkan dengan file musik. Dalam amplitude envelope, terdapat
perbedaan tingkat kebisingan pada tiap-tiap file musik dikarenakan mengacu
pada amplitudo suara dari waktu ke waktu yang digunakan pada setiap frame.
DAFTAR PUSTAKA

Harsemadi, I Gede. 2017. Implementasi Fast Fourier Transform pada Ekstraksi Fitur Mood dalam
Musik. Prosiding. Dalam: Seminar Nasional Multidisiplin Ilmu di Universitas Budi Luhur. 22
April.
Li, Z., Drew, M.S., Liu, J., 2014, Fundamentals of Multimedia 2nd Ed, Springer.
Lu, G., 1999, Multimedia Database Management System, Artech House Inc.
Perdana, Ramadhan Rosihadi. 2017. “Implementasi Ekstraksi Fitur untuk Pengelompokan
Berkas Musik Berdasarkan Kemiripan Karakteristik Suara”. Tugas Akhir. Fakultas
Teknologi Informasi, Teknik Informatika, Institut Teknologi Sepuluh Nopember,
Surabaya.

Anda mungkin juga menyukai