Anda di halaman 1dari 4

MelSpectrum dan MFCC (Mel-Frequency Cepstral Coefficients) adalah dua

metode yang digunakan dalam ekstraksi fitur audio pada Matlab. Kedua metode ini
umumnya digunakan dalam pengenalan suara dan pengenalan ucapan.
MelSpectrum adalah metode yang digunakan untuk mengukur energi dari
sinyal suara dalam rentang frekuensi tertentu. Metode ini mengambil spektrum power
sinyal suara dan mengubahnya menjadi bentuk yang lebih mudah diinterpretasikan
oleh manusia. MelSpectrum biasanya digunakan dalam pengenalan suara untuk
mengidentifikasi bentuk dari ucapan, seperti frasa atau kata-kata tertentu.
Sementara itu, MFCC adalah metode yang digunakan untuk
merepresentasikan fitur dari sinyal suara berdasarkan pada karakteristik frekuensi dan
waktu. Metode ini mengekstraksi fitur dari sinyal suara dengan membaginya menjadi
beberapa frame waktu dan menghitung koefisien cepstral pada setiap frame. Fitur-
fitur ini kemudian digunakan untuk mengidentifikasi pola dalam sinyal suara dan
digunakan dalam pengenalan ucapan.
Perbandingan antara MelSpectrum dan MFCC dalam ekstraksi fitur audio
pada Matlab adalah sebagai berikut:
1. MelSpectrum dan MFCC keduanya digunakan dalam pengenalan suara dan
pengenalan ucapan, namun metode yang dipilih tergantung pada aplikasi
tertentu.
2. MelSpectrum biasanya digunakan dalam pengenalan suara untuk
mengidentifikasi bentuk dari ucapan, sedangkan MFCC digunakan untuk
merepresentasikan fitur dari sinyal suara berdasarkan pada karakteristik
frekuensi dan waktu.
3. MelSpectrum bekerja dengan cara mengukur energi dari sinyal suara dalam
rentang frekuensi tertentu, sedangkan MFCC menghitung koefisien cepstral
pada setiap frame sinyal suara.
4. Kedua metode ini dapat diekstraksi pada Matlab dengan mudah menggunakan
fungsi bawaan seperti melSpectrogram dan mfcc.
5. Hasil ekstraksi MelSpectrum dan MFCC dapat digunakan sebagai fitur
masukan pada algoritma pengenalan suara dan pengenalan ucapan.
Dalam kesimpulannya, MelSpectrum dan MFCC adalah dua metode yang umum
digunakan dalam ekstraksi fitur audio pada Matlab. Kedua metode ini memiliki
perbedaan dan kelebihan masing-masing dan dipilih tergantung pada aplikasi tertentu.

Untuk membaca plot hasil dari MelSpectrum dan MFCC, ada beberapa hal yang perlu
diperhatikan:
1. Plot hasil MelSpectrum biasanya menunjukkan energi dari sinyal suara dalam
rentang frekuensi tertentu. Plot ini umumnya akan menampilkan sumbu x
sebagai waktu dan sumbu y sebagai frekuensi. Biasanya, semakin gelap warna
plot, semakin tinggi energi dari sinyal suara pada rentang frekuensi tersebut.
2. Plot hasil MFCC menunjukkan koefisien cepstral dari sinyal suara pada setiap
frame waktu. Plot ini umumnya akan menampilkan sumbu x sebagai waktu
dan sumbu y sebagai koefisien cepstral. Biasanya, semakin tinggi nilai
koefisien cepstral, semakin banyak energi dalam rentang frekuensi tersebut.
3. Untuk keduanya, jika plot menunjukkan garis atau pola yang jelas, itu
menunjukkan bahwa ada fitur yang dapat diidentifikasi dari sinyal suara.
Fitur-fitur tersebut dapat digunakan untuk pengenalan suara atau pengenalan
ucapan.
4. Penting untuk diingat bahwa plot hasil dari MelSpectrum dan MFCC
hanyalah representasi visual dari fitur audio yang diekstraksi dari sinyal suara.
Oleh karena itu, plot tersebut harus dianalisis dan diinterpretasikan dengan
menggunakan metode yang tepat untuk mengambil kesimpulan yang akurat.
5. Terakhir, interpretasi plot hasil dari MelSpectrum dan MFCC harus selalu
dilakukan dengan mempertimbangkan konteks aplikasi yang relevan. Plot
tersebut harus dihubungkan dengan tujuan aplikasi, misalnya untuk
pengenalan suara atau pengenalan ucapan, sehingga dapat memberikan
informasi yang berguna untuk tujuan tersebut.
Koefisien cepstral adalah suatu ukuran yang digunakan dalam analisis sinyal
suara dan pengenalan ucapan. Koefisien cepstral mengacu pada setiap nilai dalam
deretan koefisien yang dihasilkan dari transformasi cepstral pada sinyal suara.
Harmonic ratio adalah suatu teknik analisis spektral pada sinyal suara yang
menghitung rasio amplitudo antara harmonik pertama dan fundamental frekuensi
sinyal. Harmonik adalah frekuensi-frekuensi yang merupakan kelipatan dari frekuensi
fundamental, sedangkan frekuensi fundamental adalah frekuensi paling rendah dari
sinyal suara.
Analisis hasil ekstraksi harmonic ratio dapat dilakukan dengan
memperhatikan nilai rasio amplitudo yang dihasilkan. Biasanya, semakin tinggi nilai
rasio amplitudo harmonik pertama dan frekuensi fundamental, semakin murni sinyal
suara tersebut, karena sinyal suara yang murni cenderung memiliki rasio harmonik
yang lebih tinggi.
Namun, perlu diperhatikan bahwa hasil ekstraksi harmonic ratio tidak selalu
menunjukkan kualitas suara yang baik. Sinyal suara yang tidak sempurna atau
terdistorsi dapat menghasilkan rasio harmonik yang tinggi, terutama pada frekuensi
tinggi, meskipun kualitas suara tersebut sebenarnya buruk. Oleh karena itu, hasil
ekstraksi harmonic ratio harus dianalisis dengan cermat dan dipertimbangkan
bersama dengan metode analisis lainnya, seperti MelSpectrum dan MFCC.
Hasil ekstraksi harmonic ratio juga dapat digunakan untuk membandingkan
sinyal suara yang berbeda dan mengidentifikasi karakteristik atau pola khas dari suara
tersebut. Misalnya, suara musik dan suara manusia memiliki karakteristik rasio
harmonik yang berbeda, sehingga harmonic ratio dapat digunakan untuk
membedakan antara keduanya.
Selain itu, hasil ekstraksi harmonic ratio juga dapat digunakan untuk
mengidentifikasi masalah pada sinyal suara, seperti kebisingan atau distorsi yang
menyebabkan rasio harmonik yang rendah. Dengan mengevaluasi rasio harmonik
pada berbagai frekuensi, masalah seperti ini dapat diidentifikasi dan dihapus untuk
meningkatkan kualitas sinyal suara.
Ketiga metode, yaitu MelSpectrum, MFCC, dan Harmonic Ratio, semuanya
digunakan dalam analisis spektral pada sinyal suara. Meskipun memiliki tujuan yang
sama, ketiga metode tersebut memiliki perbedaan dalam cara mereka mengekstrak
fitur dari sinyal suara. Berikut adalah perbandingan ketiga metode:
Metode MelSpectrum menggunakan skala Mel untuk memetakan spektrum
frekuensi ke dalam domain mel, yang kemudian digunakan untuk menghitung
distribusi energi frekuensi pada berbagai sub-bentuk untuk menghasilkan serangkaian
koefisien. Metode ini banyak digunakan dalam pengenalan ucapan dan dapat
menghasilkan fitur-fitur yang sensitif terhadap perubahan dalam spektrum frekuensi,
sehingga sering digunakan dalam aplikasi pengenalan ucapan yang memerlukan
deteksi perubahan dalam artikulasi ucapan.
Metode MFCC menggunakan transformasi cepstral untuk mengubah sinyal
suara dari domain waktu menjadi domain cepstral, kemudian dilakukan pemotongan
frekuensi dan penerapan skala Mel untuk memperoleh fitur-fitur yang sensitif
terhadap variasi dalam sinyal suara. Metode ini sering digunakan dalam aplikasi
pengenalan suara dan pengenalan ucapan karena dapat menghasilkan fitur-fitur yang
stabil terhadap variasi dalam artikulasi ucapan.
Metode Harmonic Ratio menghitung rasio amplitudo antara harmonik
pertama dan fundamental frekuensi sinyal suara. Metode ini dapat digunakan untuk
mengidentifikasi sinyal suara yang murni dan untuk membandingkan sinyal suara
yang berbeda. Namun, metode ini kurang umum digunakan dalam pengenalan suara
dan pengenalan ucapan, karena hanya menghasilkan satu fitur tunggal dan tidak
mengandung informasi yang kaya tentang variasi dalam sinyal suara.

Secara umum, ketiga metode tersebut memiliki kelebihan dan kelemahan


masing-masing, tergantung pada tujuan analisis dan jenis sinyal suara yang ditangani.
Karena itu, pemilihan metode yang tepat harus disesuaikan dengan kebutuhan
aplikasi yang spesifik.

Anda mungkin juga menyukai