Cepstral Coefficients For The Mel Frequency Classification of Musical Genres

DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.
1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ
Coeficientes Cepstrais da Frequência Mel para

Classificação de Gêneros Musicais
Arthur Sousa de Sena
Resumo— Neste artigo, através de simulações computacionais, A técnica de extração dos MFCCs consiste de uma
é realizada uma análise de desempenho entre diferentes técnicas decomposição do espectro do sinal de áudio em curtos interva-
de Machine Learning para a classificação de gêneros musicais. O los, com o propósito de obter caracterı́sticas importantes que
processo de classificação é realizado com base nos Coeficientes
Cepstrais da Frequência Mel (MFCC, do inglês, Mel Frequency modelam a audição humana. Ao longo dos anos a técnica tem
Cepstral Coefficients) extraı́dos dos sinais de áudio. Os clas- sido amplamente empregada nas mais diversas aplicações [2],
sificadores utilizados são: Decision Tree, kth Nearest Neighbor [4], [5], [6], [7], continuando uma área ativa até os dias atuais.
(kNN), kNN com Random Subspace (RS-kNN) e Support Vector Os coeficientes MFCCs são utilizados para treinar algum tipo
Machine (SVM). Nas simulações foram considerados quatro de classificador, como algum algorı́timo de Machine Learning.
gêneros musicais, sendo eles Clássico, Metal, Rock e Pop. Todos
os classificadores forneceram resultados satisfatórios, contudo Existem diversas técnicas de Machine Learning, em que cada
o SVM obteve as melhores taxas de acerto. Além do mais, é uma delas exibe um desempenho diferente para cada tipo
verificado a importância da variação do número de coeficientes de aplicação. Dessa forma, é bastante interessante analisar o
MFCCs. desempenho de diferentes técnicas para a classificação dos
Palavras-Chave— MFCC, Gêneros Musicais, Classificação de MFCCs aplicada ao reconhecimento de gêneros musicais.
Gênero, Classificadores. Dessa forma, será realizada uma comparação de desem-
penho entre quatro classificadores, incluindo Decision Tree,
kNN, RS-kNN e SVM. Além disso, será analisado o impacto
I. I NTRODUÇ ÃO da variação do número de coeficientes nos classificadores. O
restante do trabalho está dividido como se segue. A Seção II
Nos últimos anos, a distribuição online de música digital,
apresenta a fundamentação teórica necessária para o desen-
seja através de download ou via streaming, tem ganhado ex-
volvimento do trabalho. A Seção III apresenta o modelo de
trema popularidade, superando as vendas das clássicas mı́dias
sistema implementado. A Seção IV apresenta os resultados
fı́sicas. Essa transição para o universo digital proporcionou
de simulações. E por fim a Seção V traz as conclusões do
ao usuário o acesso a um gigantesco acervo de músicas.
trabalho.
Contudo, as pessoas geralmente têm interesse somente em
certas caracterı́sticas musicais, como um determinado artista,
um instrumento ou um gênero. Dessa forma, para facilitar a II. F UNDAMENTAÇ ÃO T E ÓRICA
busca, surgiu a necessidade de desenvolver técnicas que realize A DFT (Discrete Fourier Transform), como bem
a classificação das músicas em grupos que compartilhem tais conhecida, converte um sinal no domı́nio do tempo para
caracterı́sticas, conhecidas como técnicas de Recuperação de o domı́nio da frequência. Embora a DFT forneça uma
Informações Musicais (MIR, Music Information Retrieval). caracterização completa do sinal no domı́nio da frequência,
A Classificação de Gênero é uma das técnicas mais explora- ela não é ideal para detectar os tons perceptı́veis pelo o ouvido
das na área de MIR [1], tendo uma quantidade considerável de humano. Isso se dá devido ao fato de que o ouvido humano
trabalhos publicados, nos quais aplicam diferentes estratégias não funciona de forma linear. Pesquisadores mostram que a
para se chegar ao mesmo objetivo. Uma abordagem comum é faixa linear de percepção de frequências só chega a 1kHz e
a de converter o sinal musical para o domı́nio da frequência, acima dessa faixa, a percepção acontece de forma logarı́tmica.
extrair certas caracterı́sticas e então agrupar as músicas que Por esse motivo, foi proposta a escala Mel, em que através
possuem propriedades comuns. Existem diversas formas de dos coeficientes MFCC os áudios são caracterizados de forma
extração das caracterı́sticas dos sinais, como as técnicas ZCR mais parecida com o funcionamento do ouvido humano. Para
(Zero Crossing Rate) e a LPC (Linear Predictive Coefficients). se obter os coeficientes MFCC é preciso seguir uma série de
Tais técnicas funcionam bem para diferenciar entre músicas passos, explicados em sequência.
instrumentais e vocais, pois conseguem identificar bem atri-
• Primeiro, o sinal de áudio é subdividido em frames
butos da voz humana. Contudo, não apresentam bom desem-
sobrepostos, usualmente com duração de 20ms a 50ms
penho na classificação de gêneros puramente instrumentais [2].
espaçados por 10ms [8].
Uma outra técnica extremamente eficaz e robusta, mesmo para
• Em seguida, os frames são filtrados por janelas Hamming
a identificação de gêneros parecidos, é a classificação por meio
e seus espectros são obtidos através da DFT, definida por:
dos coeficientes MFCCs [3].
Arthur Sousa de Sena, estudante do curso de Engenharia de Com- N −1

1 X 2π
putacão, Universidade Federal do Ceará, Sobral-CE, Brasil, E-mail: s̄(k) = √ s(n)e−jn N k , (1)
arthurss@ymail.com. N n=0
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ
1 s1 T
s1 T
Banco de Áudios
0.9 Áudios de Treinamento Áudios de Teste
s2 s2
...
...
Gênero 1 Gênero 1 sT sN
f DFT sN f Extração
0.8 Gênero 2 Gênero 2 Framing e dos
Hamming MFCCs
...
...
0.7 Gênero K Gênero K
0.6 c1 c1
c2 c2
Amplitude
Coeficientes para
0.5
...
Treinamento
...
Resultados cK Média cM
Classificador dos Liftering
0.4
MFCCs
Coeficientes
0.3 para Teste
0.2
0.1 Fig. 2. Diagrama de blocos simplificado do sistema implementado.

0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Frequência [Hz]
• Como último passo, os M coeficientes MFCC são fi-
nalmente obtidos através da transformada inversa de
Fig. 1. Banco de 10 filtros triangulares espaçados uniformemente pela escala cossenos, definida por:
Mel com frequência mı́nima de 200 Hz e máxima de 10 kHz.
M −1
X πn(m + 0, 5)
c(n) = P̂ (m)cos , (6)
M
em que s̄(k) é o sinal no domı́nio da frequência, s(n) m=0
é o sinal no domı́nio do tempo e N é o tamanho da DFT. para 0 < n < M − 1.
• Então, calcula-se o espectro de potência de s̄(k), dado Os MFCCs contam com uma caracterı́stica de possuir uma
por: alta variância nos coeficientes mais baixos e uma pequena
variância nos mais altos, o que pode piorar o desempenho dos
P (k) = |s̄(k)|2 . (2) classificadores. Por conta disso, geralmente mais uma etapa é
aplicada aos coeficientes, chamada de liftering. Essa etapa é
• O espectro de potência P (k) é então passado por um realizada aplicando um peso em cada coeficiente, dado por:
banco de M filtros triangulares passa-faixas, espaçados
L · sin mπ

de acordo com a escala de frequências Mel, dada por: hm = 1 + L
, (7)
2
para 0 < m < M − 1. Em que hm é o peso aplicado ao

f
M el(f ) = 1125 · ln 1 + . (3) m-ésimo coeficiente e L é o parâmetro de lifter, geralmente
700
com valor de 2M .
Assim, a resposta em frequência dos filtros Mel pode ser
definida por:
III. M ODELO DO S ISTEMA
O modelo simplificado do sistema considerado pode ser

 0 k < f (m − 1)
visto no diagrama da Figura 2. Como pode ser visto, o sistema
 k−f (m−1)
f (m − 1) ≤ k ≤ f (m)


f (m)−f (m−1)
Hm (k) = f (m+1)−k , implementado considera como entrada múltiplos áudios de


 f (m+1)−f (m) f (m) ≤ k ≤ f (m + 1) múltiplos gêneros, sendo que, uma porção é utilizada para o
0 k > f (m + 1)

treinamento dos classificadores e uma outra porção é utilizada
(4) para teste, notando que apenas um áudio é processado por
em que f (·) é uma sequência de M + 2 frequências vez. Para cada entrada, considera-se Ns amostras do sinal
espaçadas pela escala Mel, com m variando de 0 a M −1. de áudio, representado por s = [s(1), s(2), · · · , s(Ns )]T ,
A Figura 1 mostra o gráfico de um banco de 10 filtros com frequência de amostragem Fs . A primeira etapa do
gerados por meio de (4). processamento consiste na segmentação do áudio de entrada
em Nf frames de duração Tf , separados por um intervalo de
tempo Td . Assim, a saı́da do processo de segmentação consiste
• Continuando o processo, calcula-se o logaritmo natural em uma matriz de dimensões Nf × bTf · Fs c, dada por:
de cada elemento da sequência de saı́da dos filtros, como
se segue:  T
s1
N    s2
2 +1 S=  , (8)
 
X ..
P̂ (m) = ln  P (k)Hm (k) , (5)   .
k=0 sNf
para 1 < m < M . em que sn = [sn (1), sn (2), · · · , sn (F )] representa o n-ésimo
frame de tamanho F = bTf · Fs c, com 1 ≤ n ≤ Nf .
40
Em seguida, para suavizar as descontinuidades do inı́cio e
Classical
do final de cada um dos frames, eles são filtrados por Nf Metal
Rock
30
janelas Hamming de largura F . Após essa etapa, os frames Pop
são convertidos para o domı́nio da frequência através da DFT,

20
definida em (1), gerando assim, a matriz de espectros:
Amplitude
 T 10
s̄1
 s̄2

0
S̄ =   , (9)
 
..
 .
s̄Nf -10
em que s̄n = [s̄n (1), s̄n (2), · · · , s̄n (NDF T )] representa a DFT
-20
de tamanho NDF T = 2dlog2 (F )e do n-ésimo frame, com 1 ≤ 1 10 18 25 32
Índice do coeficiente Cepstral
n ≤ Nf . A partir dessa etapa, acontece o processo de extração
dos coeficientes MFCCs, explicado detalhadamente na Seção
II. No final do processo de extração, obtêm-se a matriz de Fig. 3. Coeficientes cepstrais médios para diferentes gêneros musicais.
coeficientes MFCCs, representada por:
  de 27, 21s. Além disso, escolheu-se um tempo de frame de
c1 Tf = 30ms com espaço entre frames de Td = 10ms. A
 c2 
C =  . ,
 
(10) menor frequência de corte do banco de filtros foi escolhida
 ..  como 200Hz e a maior como 10kHz. Várias quantidades de
cM coeficientes MFCCs foram testadas.
Para visualizar a primeira etapa da simulação, que con-
em que M é o número de coeficientes e cm =
siste da extração dos MFCCs, foi plotado na Figura 3 os
[cm (1), cm (2), · · · , cm (Nf )] representa o vetor do m-ésimo
coeficientes médios de treinamento dos quatro gêneros con-
MFCC de cada um dos Nf frames, com 1 ≤ m ≤ M .
siderados. Verifica-se que para cada gênero os coeficientes
Esse ponto finaliza o processo de extração dos coeficientes
apresentam valores diferentes, e à maneira que os ı́ndices
MFCCs do áudio atual. Continuando a execução do sistema,
dos MFCCs aumentam, as suas variâncias diminuem. Como
o processo de extração dos MFCCs é repetido até que todos
já foi mencionado, esse comportamento realmente era espe-
os áudios tenham sido processados. Quando a fase de extração
rado, proporcionando assim uma noção de que o processo
é finalizada, calcula-se a média dos MFCCs para cada gênero,
de extração está sendo realizado corretamente. O fato de
resultando assim na matriz de coeficientes médios, dada por:
que a variância dos MFCCs mais altos seja menor, torna
  tais coeficientes não muito úteis para serem aplicados em
c̄1 processos de classificação, pois depois de um certo nı́vel
 c̄2  torna difı́cil de identificar corretamente os diferentes gêneros.
C̄ =  .  , (11)
 
 ..  Por esse motivo o número de coeficientes utilizados varia de
c̄K aplicação para aplicação, de maneira que cada autor sugere
um número de coeficientes diferentes. De fato, tal informação
em que K é o número de gêneros musicais considerados e é um importante parâmetro que influenciará nos resultados
c̄k = [c̄k (1), c̄k (2), · · · , c̄k (M )] representa o vetor de MFCCs dos classificadores. Assim, para descobrir o impacto desse
médios para o k-ésimo gênero, com 1 ≤ k ≤ K. Como última parâmetro, e além disso, descobrir o número mais apropriado
etapa do sistema de classificação, a matriz C̄ é passada como para o propósito deste trabalho, as simulações foram repetidas
entrada para os classificadores. Como já mencionado, foram para várias quantidades de MFCCs.
escolhidos para as análises quatro classificadores, que são: O gráfico da Figura 4 mostra os resultados das taxas de
Decision Tree, kNN, RS-kNN e SVM. Informações detalhadas acerto médias obtidos com a variação dos números de coefici-
para tais classificadores são fornecidas em [1]. entes para todos os classificadores utilizados. Percebe-se dois
comportamentos distintos entre as técnicas de classificação.
IV. R ESULTADOS DE S IMULAÇ ÕES As técnicas Decision Tree, kNN e RS-kNN, exibem compor-
Para a implementação do sistema proposto, foi uti- tamentos parecidos e até um pouco curiosos, em que o desem-
lizada a coleção de amostras de áudio, disponı́vel em [9]. penho médio desse classificadores diminui com o aumento dos
Tais áudios são agrupados em diferentes gêneros e possuem números de coeficientes. Em contraste, o comportamento de
uma frequência de amostragem Fs = 25, 05kHz. Para as desempenho médio do classificador SVM é crescente com o
simulações, foram escolhidos quatro gêneros: Clássico, Metal, aumento do número de MFCCs. É perceptı́vel que para altas
Rock e Pop. De cada gênero foram utilizados 60 áudios para quantidades de coeficientes, o SVM apresenta desempenho
treinamento e 40 para teste, o que resulta em um total de 240 bem superior que todos os outros classificadores, mas para
áudios de treinamento e 160 áudios de teste. De cada áudio baixas quantidades, mais especificamente entre 6 e 8 coeficien-
utilizou-se 600 × 103 amostras, resultando em uma duração tes, o classificador kNN se destaca sobre os outros, mostrando
100 100
87.5
90
90
80
80
Taxa de Acerto (%)

Taxa de Acerto (%)
70
70
60
Classical
Metal
60 50 Rock
Pop
Taxa Média
Decision Tree 40
50
kNN
RS-kNN
30
SVM
40
20
5 10 15 20 25 30 35 40 2 8 14 20 26 32 40
Número de Coeficientes Cepstrais Número de Coeficientes Cepstrais
Fig. 4. Taxas médias de acerto versus número de coeficientes cepstrais para Fig. 5. Taxas de acerto versus número de coeficientes cepstrais para o
diferentes classificadores. classificador SVM.
100
Classical
taxas de acerto consideravelmente altas, ultrapassando os 80%. Metal
Rock
90 %
90 %
90 %
Além do mais, é possı́vel observar que no geral o Decision
87.5 %
87.5 %
87.5 %
Pop
80
82.5 %
Taxa Média
Tree exibe o pior desempenho médio, tendo pouquı́ssimos
resultados melhores que os outros classificadores. Por sua vez,
72.5 %
70 %
70 %
66.25 %
a técnica RS-kNN exibe um desempenho intermediário entre
65 %
65 %
65 %
Taxa de Acerto (%)
60
60 %
58.125 %
57.5 %
os três piores.
55 %
Uma vez que já foi verificado o desempenho médio de

47.5 %
40
42.5 %
todos os classificadores, é bastante interessante agora verificar
o impacto da variação de coeficientes na classificação de
cada gênero de forma separada. Dado o alto desempenho do 20
classificador SVM, escolheu-se ele para fazer esse detalha-

mento. No gráfico da figura 5 é exibido o comportamento 0
detalhado das taxas de acerto para os quatro gêneros, além da Decision Tree KNN KNN with Random Subspace SVM
taxa média, já apresentada anteriormente. Observa-se que na

maioria das vezes o gênero Metal obteve os piores resultados, Fig. 6. Taxas de acerto para diferentes classificadores com um número de
contudo o seu desempenho melhorou à maneira que o número 32 coeficientes cepstrais.
de coeficientes aumentou, atingindo uma taxa de acerto de
80% quando se utilizou 24 coeficientes e chegando a ultra-
passar os 90% a partir de 36 coeficientes. De forma geral, o da segunda pior taxa no classificador kNN. Além do mais,
gênero Pop obteve os melhores resultados, apresentando um verifica-se que na maioria dos classificadores o segundo pior
desempenho maior que 90% logo em uma quantidade de 12 resultado é obtido com o gênero Clássico e que os gêneros
coeficientes. Tanto o gênero Rock como o Clássico apresentam Metal e Pop exibem desempenhos parecidos, notando que no
taxas parecidas até cerca de 28 coeficientes, contudo a partir classificador kNN os resultados desses gêneros são similares
de 30 coeficientes o desempenho de classificação do Rock aos obtidos no SVM. E por fim, mais uma vez percebe-se
começa a cair, chegando a uma taxa inferior a 70% com 40 que o Decision Tree apresenta as piores taxas, só ganhando
coeficientes. Analisando tais gráficos foi possı́vel identificar o do kNN na classificação do gênero Rock.
número de coeficientes que proporcionou a maior taxa média
de acertos, que foi 87.5% quando se utilizou 32 coeficientes. É V. C ONCLUS ÕES
possı́vel notar que nesse valor, o desempenho de classificação Neste artigo, foi realizada uma análise de desempenho
de todos os gêneros foi balanceada, estando entre 80% e de diferentes técnicas de Machine Learning aplicadas à
90%. Dessa forma, para comparar o desempenho de todos os classificação de gêneros musicais através dos coeficien-
classificadores com a classificação de cada gênero detalhada, tes MFCCs. Inicialmente foi fornecida uma fundamentação
escolheu-se como padrão o valor de 32 coeficientes. teórica para o desenvolvimento do trabalho, sendo em seguida
No gráfico da Figura 6 estão expostos os resultados detalha- apresentado um modelo do sistema implementado. Na primeira
dos da classificação realizada pelos quatro classificadores com fase de execução do sistema, os áudios foram processados
o padrão de 32 coeficientes. É possı́vel notar que em todos e os coeficientes cepstrais extraı́dos. Os resultados obtidos
os classificadores, o gênero Rock é o que obtém os piores nessa etapa apresentaram comportamentos condizentes com
resultados, sendo a principal razão pela diminuição da média a teoria. Na segunda fase, uma parte dos coeficientes foi
geral de desempenho, mostrando um desvio de quase 20% utilizada para treinar os classificados, e a outra porção foi
utilizada realizar os testes. Pôde-se analisar o impacto que

a quantidade de coeficientes cepstrais tem sobre o desempe-
nho dos classificadores. A partir da análise foi determinada
quantidade de coeficientes mais adequada para ser utilizada
na classificação dos gêneros considerados. De forma geral,
todos os classificadores exibiram resultados satisfatórios, pro-
porcionando uma taxa média de acerto acima de 50%. Além
do mais, foi mostrado que, dentre os classificadores testados,
o SVM obtêm as maiores taxas de acerto na classificação dos
gêneros musicais, chegando a uma expressiva taxa de 87%.
Portanto, ficou claro o potencial que os coeficientes
MFCCs possuem para serem utilizados como parâmetro de
classificação de gênero musical, além de ser mostrada a im-
portância do classificador utilizado e o impacto da quantidade
de coeficientes escolhida. Em trabalhos seguintes poderiam ser
analisados os efeitos da variação de outros parâmetros, como
a frequência de amostragem, o tamanho dos frames de áudio
ou até mesmo a utilização de outros filtros.
R EFER ÊNCIAS
[1] Z. Fu, G. Lu, et al., A Survey of Audio-Based Music Classification and
Annotation. IEEE Transactions on Multimedia, 2011.
[2] C. Zheng e J. Xu, Multi-modal Music Genre Classification Approach.
Intl. Conf. on Computer Science and Information Technology, Vol. 8,
2010, pp. 398-402.
[3] S. Molau, M. Pitz, R. Schluter e H. Ney, Computing Mel-Frequency
Cepstral Coefficients on The Power Spectrum. IEEE International Con-
ference on Acoustics, Speech, and Signal Processing, 2001.
[4] M. Mandel and D. Ellis, Song-level features and SVMs for music
classification. Proc. Int. Conf. Music Information Retrieval, 2005.
[5] P. M. Chauhan, N. P. Desai, Mel Frequency Cepstral Coefficients
(MFCC) Based Speaker Identification in Noisy Environment Using
Wiener Filter. International Conference on Green Computing Commu-
nication and Electrical Engineering, 2014.
[6] C. D. A. Gordillo, Reconhecimento de Voz Contı́nua Combinando os
Atributos MFCC e PNCC com Métodos de Robustez SS, WD, MAP e
FRN. PUC-Rio, 2013.
[7] F. G. Barbosa e W. L. S. Silva, Support Vector Machines, Mel-Frequency
Cepstral Coefficients and the Discrete Cosine Transform Applied on
Voice Based Biometric Authentication. SAI Intelligent Systems Confe-
rence, 2015.
[8] J. Aucouturier e F Pachet, Improving Timbre Similarity: How high is
the sky?. Journal of Negative Results in Speech and Audio Sciences,
pp. 1-13, 2004 .
[9] GTZAN Dataset: Musical genre classification of audio signals. [On-
line]. Disponı́vel: http://marsyasweb.appspot.com/download/data sets.
[Acesso: 19 - Junho - 2017].
[10] D. P. Kumar, B. J. Sowmya, et al., A Comparative Study of Classifiers
for Music Genre Classification based on Feature Extractors. IEEE
Distributed Computing, VLSI, Electrical Circuits and Robotics, 2016.

Cepstral Coefficients For The Mel Frequency Classification of Musical Genres

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Cepstral Coefficients For The Mel Frequency Classification of Musical Genres

Diunggah oleh

Hak Cipta:

Format Tersedia

DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.

1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ

Coeficientes Cepstrais da Frequência Mel para

Arthur Sousa de Sena, estudante do curso de Engenharia de Com- N −1

0.1 Fig. 2. Diagrama de blocos simplificado do sistema implementado.

são convertidos para o domı́nio da frequência através da DFT,

Taxa de Acerto (%)

Uma vez que já foi verificado o desempenho médio de

classificador SVM, escolheu-se ele para fazer esse detalha-

taxa média, já apresentada anteriormente. Observa-se que na

utilizada realizar os testes. Pôde-se analisar o impacto que

Anda mungkin juga menyukai