Resumo— Neste artigo, através de simulações computacionais, A técnica de extração dos MFCCs consiste de uma
é realizada uma análise de desempenho entre diferentes técnicas decomposição do espectro do sinal de áudio em curtos interva-
de Machine Learning para a classificação de gêneros musicais. O los, com o propósito de obter caracterı́sticas importantes que
processo de classificação é realizado com base nos Coeficientes
Cepstrais da Frequência Mel (MFCC, do inglês, Mel Frequency modelam a audição humana. Ao longo dos anos a técnica tem
Cepstral Coefficients) extraı́dos dos sinais de áudio. Os clas- sido amplamente empregada nas mais diversas aplicações [2],
sificadores utilizados são: Decision Tree, kth Nearest Neighbor [4], [5], [6], [7], continuando uma área ativa até os dias atuais.
(kNN), kNN com Random Subspace (RS-kNN) e Support Vector Os coeficientes MFCCs são utilizados para treinar algum tipo
Machine (SVM). Nas simulações foram considerados quatro de classificador, como algum algorı́timo de Machine Learning.
gêneros musicais, sendo eles Clássico, Metal, Rock e Pop. Todos
os classificadores forneceram resultados satisfatórios, contudo Existem diversas técnicas de Machine Learning, em que cada
o SVM obteve as melhores taxas de acerto. Além do mais, é uma delas exibe um desempenho diferente para cada tipo
verificado a importância da variação do número de coeficientes de aplicação. Dessa forma, é bastante interessante analisar o
MFCCs. desempenho de diferentes técnicas para a classificação dos
Palavras-Chave— MFCC, Gêneros Musicais, Classificação de MFCCs aplicada ao reconhecimento de gêneros musicais.
Gênero, Classificadores. Dessa forma, será realizada uma comparação de desem-
penho entre quatro classificadores, incluindo Decision Tree,
kNN, RS-kNN e SVM. Além disso, será analisado o impacto
I. I NTRODUÇ ÃO da variação do número de coeficientes nos classificadores. O
restante do trabalho está dividido como se segue. A Seção II
Nos últimos anos, a distribuição online de música digital,
apresenta a fundamentação teórica necessária para o desen-
seja através de download ou via streaming, tem ganhado ex-
volvimento do trabalho. A Seção III apresenta o modelo de
trema popularidade, superando as vendas das clássicas mı́dias
sistema implementado. A Seção IV apresenta os resultados
fı́sicas. Essa transição para o universo digital proporcionou
de simulações. E por fim a Seção V traz as conclusões do
ao usuário o acesso a um gigantesco acervo de músicas.
trabalho.
Contudo, as pessoas geralmente têm interesse somente em
certas caracterı́sticas musicais, como um determinado artista,
um instrumento ou um gênero. Dessa forma, para facilitar a II. F UNDAMENTAÇ ÃO T E ÓRICA
busca, surgiu a necessidade de desenvolver técnicas que realize A DFT (Discrete Fourier Transform), como bem
a classificação das músicas em grupos que compartilhem tais conhecida, converte um sinal no domı́nio do tempo para
caracterı́sticas, conhecidas como técnicas de Recuperação de o domı́nio da frequência. Embora a DFT forneça uma
Informações Musicais (MIR, Music Information Retrieval). caracterização completa do sinal no domı́nio da frequência,
A Classificação de Gênero é uma das técnicas mais explora- ela não é ideal para detectar os tons perceptı́veis pelo o ouvido
das na área de MIR [1], tendo uma quantidade considerável de humano. Isso se dá devido ao fato de que o ouvido humano
trabalhos publicados, nos quais aplicam diferentes estratégias não funciona de forma linear. Pesquisadores mostram que a
para se chegar ao mesmo objetivo. Uma abordagem comum é faixa linear de percepção de frequências só chega a 1kHz e
a de converter o sinal musical para o domı́nio da frequência, acima dessa faixa, a percepção acontece de forma logarı́tmica.
extrair certas caracterı́sticas e então agrupar as músicas que Por esse motivo, foi proposta a escala Mel, em que através
possuem propriedades comuns. Existem diversas formas de dos coeficientes MFCC os áudios são caracterizados de forma
extração das caracterı́sticas dos sinais, como as técnicas ZCR mais parecida com o funcionamento do ouvido humano. Para
(Zero Crossing Rate) e a LPC (Linear Predictive Coefficients). se obter os coeficientes MFCC é preciso seguir uma série de
Tais técnicas funcionam bem para diferenciar entre músicas passos, explicados em sequência.
instrumentais e vocais, pois conseguem identificar bem atri-
• Primeiro, o sinal de áudio é subdividido em frames
butos da voz humana. Contudo, não apresentam bom desem-
sobrepostos, usualmente com duração de 20ms a 50ms
penho na classificação de gêneros puramente instrumentais [2].
espaçados por 10ms [8].
Uma outra técnica extremamente eficaz e robusta, mesmo para
• Em seguida, os frames são filtrados por janelas Hamming
a identificação de gêneros parecidos, é a classificação por meio
e seus espectros são obtidos através da DFT, definida por:
dos coeficientes MFCCs [3].
1 s1 T
s1 T
Banco de Áudios
0.9 Áudios de Treinamento Áudios de Teste
s2 s2
...
...
Gênero 1 Gênero 1 sT sN
f DFT sN f Extração
0.8 Gênero 2 Gênero 2 Framing e dos
Hamming MFCCs
...
...
0.7 Gênero K Gênero K
0.6 c1 c1
c2 c2
Amplitude
Coeficientes para
0.5
...
Treinamento
...
Resultados cK Média cM
Classificador dos Liftering
0.4
MFCCs
Coeficientes
0.3 para Teste
0.2
• Então, calcula-se o espectro de potência de s̄(k), dado Os MFCCs contam com uma caracterı́stica de possuir uma
por: alta variância nos coeficientes mais baixos e uma pequena
variância nos mais altos, o que pode piorar o desempenho dos
P (k) = |s̄(k)|2 . (2) classificadores. Por conta disso, geralmente mais uma etapa é
aplicada aos coeficientes, chamada de liftering. Essa etapa é
• O espectro de potência P (k) é então passado por um realizada aplicando um peso em cada coeficiente, dado por:
banco de M filtros triangulares passa-faixas, espaçados
L · sin mπ
de acordo com a escala de frequências Mel, dada por: hm = 1 + L
, (7)
2
para 0 < m < M − 1. Em que hm é o peso aplicado ao
f
M el(f ) = 1125 · ln 1 + . (3) m-ésimo coeficiente e L é o parâmetro de lifter, geralmente
700
com valor de 2M .
Assim, a resposta em frequência dos filtros Mel pode ser
definida por:
III. M ODELO DO S ISTEMA
O modelo simplificado do sistema considerado pode ser
0 k < f (m − 1)
visto no diagrama da Figura 2. Como pode ser visto, o sistema
k−f (m−1)
f (m − 1) ≤ k ≤ f (m)
f (m)−f (m−1)
Hm (k) = f (m+1)−k , implementado considera como entrada múltiplos áudios de
f (m+1)−f (m) f (m) ≤ k ≤ f (m + 1) múltiplos gêneros, sendo que, uma porção é utilizada para o
0 k > f (m + 1)
treinamento dos classificadores e uma outra porção é utilizada
(4) para teste, notando que apenas um áudio é processado por
em que f (·) é uma sequência de M + 2 frequências vez. Para cada entrada, considera-se Ns amostras do sinal
espaçadas pela escala Mel, com m variando de 0 a M −1. de áudio, representado por s = [s(1), s(2), · · · , s(Ns )]T ,
A Figura 1 mostra o gráfico de um banco de 10 filtros com frequência de amostragem Fs . A primeira etapa do
gerados por meio de (4). processamento consiste na segmentação do áudio de entrada
em Nf frames de duração Tf , separados por um intervalo de
tempo Td . Assim, a saı́da do processo de segmentação consiste
• Continuando o processo, calcula-se o logaritmo natural em uma matriz de dimensões Nf × bTf · Fs c, dada por:
de cada elemento da sequência de saı́da dos filtros, como
se segue: T
s1
N s2
2 +1 S= , (8)
X ..
P̂ (m) = ln P (k)Hm (k) , (5) .
k=0 sNf
para 1 < m < M . em que sn = [sn (1), sn (2), · · · , sn (F )] representa o n-ésimo
frame de tamanho F = bTf · Fs c, com 1 ≤ n ≤ Nf .
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ
40
Em seguida, para suavizar as descontinuidades do inı́cio e
Classical
do final de cada um dos frames, eles são filtrados por Nf Metal
Rock
30
janelas Hamming de largura F . Após essa etapa, os frames Pop
Amplitude
T 10
s̄1
s̄2
0
S̄ = , (9)
..
.
s̄Nf -10
em que s̄n = [s̄n (1), s̄n (2), · · · , s̄n (NDF T )] representa a DFT
-20
de tamanho NDF T = 2dlog2 (F )e do n-ésimo frame, com 1 ≤ 1 10 18 25 32
Índice do coeficiente Cepstral
n ≤ Nf . A partir dessa etapa, acontece o processo de extração
dos coeficientes MFCCs, explicado detalhadamente na Seção
II. No final do processo de extração, obtêm-se a matriz de Fig. 3. Coeficientes cepstrais médios para diferentes gêneros musicais.
coeficientes MFCCs, representada por:
de 27, 21s. Além disso, escolheu-se um tempo de frame de
c1 Tf = 30ms com espaço entre frames de Td = 10ms. A
c2
C = . ,
(10) menor frequência de corte do banco de filtros foi escolhida
.. como 200Hz e a maior como 10kHz. Várias quantidades de
cM coeficientes MFCCs foram testadas.
Para visualizar a primeira etapa da simulação, que con-
em que M é o número de coeficientes e cm =
siste da extração dos MFCCs, foi plotado na Figura 3 os
[cm (1), cm (2), · · · , cm (Nf )] representa o vetor do m-ésimo
coeficientes médios de treinamento dos quatro gêneros con-
MFCC de cada um dos Nf frames, com 1 ≤ m ≤ M .
siderados. Verifica-se que para cada gênero os coeficientes
Esse ponto finaliza o processo de extração dos coeficientes
apresentam valores diferentes, e à maneira que os ı́ndices
MFCCs do áudio atual. Continuando a execução do sistema,
dos MFCCs aumentam, as suas variâncias diminuem. Como
o processo de extração dos MFCCs é repetido até que todos
já foi mencionado, esse comportamento realmente era espe-
os áudios tenham sido processados. Quando a fase de extração
rado, proporcionando assim uma noção de que o processo
é finalizada, calcula-se a média dos MFCCs para cada gênero,
de extração está sendo realizado corretamente. O fato de
resultando assim na matriz de coeficientes médios, dada por:
que a variância dos MFCCs mais altos seja menor, torna
tais coeficientes não muito úteis para serem aplicados em
c̄1 processos de classificação, pois depois de um certo nı́vel
c̄2 torna difı́cil de identificar corretamente os diferentes gêneros.
C̄ = . , (11)
.. Por esse motivo o número de coeficientes utilizados varia de
c̄K aplicação para aplicação, de maneira que cada autor sugere
um número de coeficientes diferentes. De fato, tal informação
em que K é o número de gêneros musicais considerados e é um importante parâmetro que influenciará nos resultados
c̄k = [c̄k (1), c̄k (2), · · · , c̄k (M )] representa o vetor de MFCCs dos classificadores. Assim, para descobrir o impacto desse
médios para o k-ésimo gênero, com 1 ≤ k ≤ K. Como última parâmetro, e além disso, descobrir o número mais apropriado
etapa do sistema de classificação, a matriz C̄ é passada como para o propósito deste trabalho, as simulações foram repetidas
entrada para os classificadores. Como já mencionado, foram para várias quantidades de MFCCs.
escolhidos para as análises quatro classificadores, que são: O gráfico da Figura 4 mostra os resultados das taxas de
Decision Tree, kNN, RS-kNN e SVM. Informações detalhadas acerto médias obtidos com a variação dos números de coefici-
para tais classificadores são fornecidas em [1]. entes para todos os classificadores utilizados. Percebe-se dois
comportamentos distintos entre as técnicas de classificação.
IV. R ESULTADOS DE S IMULAÇ ÕES As técnicas Decision Tree, kNN e RS-kNN, exibem compor-
Para a implementação do sistema proposto, foi uti- tamentos parecidos e até um pouco curiosos, em que o desem-
lizada a coleção de amostras de áudio, disponı́vel em [9]. penho médio desse classificadores diminui com o aumento dos
Tais áudios são agrupados em diferentes gêneros e possuem números de coeficientes. Em contraste, o comportamento de
uma frequência de amostragem Fs = 25, 05kHz. Para as desempenho médio do classificador SVM é crescente com o
simulações, foram escolhidos quatro gêneros: Clássico, Metal, aumento do número de MFCCs. É perceptı́vel que para altas
Rock e Pop. De cada gênero foram utilizados 60 áudios para quantidades de coeficientes, o SVM apresenta desempenho
treinamento e 40 para teste, o que resulta em um total de 240 bem superior que todos os outros classificadores, mas para
áudios de treinamento e 160 áudios de teste. De cada áudio baixas quantidades, mais especificamente entre 6 e 8 coeficien-
utilizou-se 600 × 103 amostras, resultando em uma duração tes, o classificador kNN se destaca sobre os outros, mostrando
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ
100 100
87.5
90
90
80
80
70
70
60
Classical
Metal
60 50 Rock
Pop
Taxa Média
Decision Tree 40
50
kNN
RS-kNN
30
SVM
40
20
5 10 15 20 25 30 35 40 2 8 14 20 26 32 40
Número de Coeficientes Cepstrais Número de Coeficientes Cepstrais
Fig. 4. Taxas médias de acerto versus número de coeficientes cepstrais para Fig. 5. Taxas de acerto versus número de coeficientes cepstrais para o
diferentes classificadores. classificador SVM.
100
Classical
taxas de acerto consideravelmente altas, ultrapassando os 80%. Metal
Rock
90 %
90 %
90 %
Além do mais, é possı́vel observar que no geral o Decision
87.5 %
87.5 %
87.5 %
Pop
80
82.5 %
Taxa Média
Tree exibe o pior desempenho médio, tendo pouquı́ssimos
resultados melhores que os outros classificadores. Por sua vez,
72.5 %
70 %
70 %
66.25 %
a técnica RS-kNN exibe um desempenho intermediário entre
65 %
65 %
65 %
Taxa de Acerto (%)
60
60 %
58.125 %
57.5 %
os três piores.
55 %
40
42.5 %
todos os classificadores, é bastante interessante agora verificar
o impacto da variação de coeficientes na classificação de
cada gênero de forma separada. Dado o alto desempenho do 20
R EFER ÊNCIAS
[1] Z. Fu, G. Lu, et al., A Survey of Audio-Based Music Classification and
Annotation. IEEE Transactions on Multimedia, 2011.
[2] C. Zheng e J. Xu, Multi-modal Music Genre Classification Approach.
Intl. Conf. on Computer Science and Information Technology, Vol. 8,
2010, pp. 398-402.
[3] S. Molau, M. Pitz, R. Schluter e H. Ney, Computing Mel-Frequency
Cepstral Coefficients on The Power Spectrum. IEEE International Con-
ference on Acoustics, Speech, and Signal Processing, 2001.
[4] M. Mandel and D. Ellis, Song-level features and SVMs for music
classification. Proc. Int. Conf. Music Information Retrieval, 2005.
[5] P. M. Chauhan, N. P. Desai, Mel Frequency Cepstral Coefficients
(MFCC) Based Speaker Identification in Noisy Environment Using
Wiener Filter. International Conference on Green Computing Commu-
nication and Electrical Engineering, 2014.
[6] C. D. A. Gordillo, Reconhecimento de Voz Contı́nua Combinando os
Atributos MFCC e PNCC com Métodos de Robustez SS, WD, MAP e
FRN. PUC-Rio, 2013.
[7] F. G. Barbosa e W. L. S. Silva, Support Vector Machines, Mel-Frequency
Cepstral Coefficients and the Discrete Cosine Transform Applied on
Voice Based Biometric Authentication. SAI Intelligent Systems Confe-
rence, 2015.
[8] J. Aucouturier e F Pachet, Improving Timbre Similarity: How high is
the sky?. Journal of Negative Results in Speech and Audio Sciences,
pp. 1-13, 2004 .
[9] GTZAN Dataset: Musical genre classification of audio signals. [On-
line]. Disponı́vel: http://marsyasweb.appspot.com/download/data sets.
[Acesso: 19 - Junho - 2017].
[10] D. P. Kumar, B. J. Sowmya, et al., A Comparative Study of Classifiers
for Music Genre Classification based on Feature Extractors. IEEE
Distributed Computing, VLSI, Electrical Circuits and Robotics, 2016.