Anda di halaman 1dari 5

DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.

1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ

Coeficientes Cepstrais da Frequência Mel para


Classificação de Gêneros Musicais
Arthur Sousa de Sena

Resumo— Neste artigo, através de simulações computacionais, A técnica de extração dos MFCCs consiste de uma
é realizada uma análise de desempenho entre diferentes técnicas decomposição do espectro do sinal de áudio em curtos interva-
de Machine Learning para a classificação de gêneros musicais. O los, com o propósito de obter caracterı́sticas importantes que
processo de classificação é realizado com base nos Coeficientes
Cepstrais da Frequência Mel (MFCC, do inglês, Mel Frequency modelam a audição humana. Ao longo dos anos a técnica tem
Cepstral Coefficients) extraı́dos dos sinais de áudio. Os clas- sido amplamente empregada nas mais diversas aplicações [2],
sificadores utilizados são: Decision Tree, kth Nearest Neighbor [4], [5], [6], [7], continuando uma área ativa até os dias atuais.
(kNN), kNN com Random Subspace (RS-kNN) e Support Vector Os coeficientes MFCCs são utilizados para treinar algum tipo
Machine (SVM). Nas simulações foram considerados quatro de classificador, como algum algorı́timo de Machine Learning.
gêneros musicais, sendo eles Clássico, Metal, Rock e Pop. Todos
os classificadores forneceram resultados satisfatórios, contudo Existem diversas técnicas de Machine Learning, em que cada
o SVM obteve as melhores taxas de acerto. Além do mais, é uma delas exibe um desempenho diferente para cada tipo
verificado a importância da variação do número de coeficientes de aplicação. Dessa forma, é bastante interessante analisar o
MFCCs. desempenho de diferentes técnicas para a classificação dos
Palavras-Chave— MFCC, Gêneros Musicais, Classificação de MFCCs aplicada ao reconhecimento de gêneros musicais.
Gênero, Classificadores. Dessa forma, será realizada uma comparação de desem-
penho entre quatro classificadores, incluindo Decision Tree,
kNN, RS-kNN e SVM. Além disso, será analisado o impacto
I. I NTRODUÇ ÃO da variação do número de coeficientes nos classificadores. O
restante do trabalho está dividido como se segue. A Seção II
Nos últimos anos, a distribuição online de música digital,
apresenta a fundamentação teórica necessária para o desen-
seja através de download ou via streaming, tem ganhado ex-
volvimento do trabalho. A Seção III apresenta o modelo de
trema popularidade, superando as vendas das clássicas mı́dias
sistema implementado. A Seção IV apresenta os resultados
fı́sicas. Essa transição para o universo digital proporcionou
de simulações. E por fim a Seção V traz as conclusões do
ao usuário o acesso a um gigantesco acervo de músicas.
trabalho.
Contudo, as pessoas geralmente têm interesse somente em
certas caracterı́sticas musicais, como um determinado artista,
um instrumento ou um gênero. Dessa forma, para facilitar a II. F UNDAMENTAÇ ÃO T E ÓRICA
busca, surgiu a necessidade de desenvolver técnicas que realize A DFT (Discrete Fourier Transform), como bem
a classificação das músicas em grupos que compartilhem tais conhecida, converte um sinal no domı́nio do tempo para
caracterı́sticas, conhecidas como técnicas de Recuperação de o domı́nio da frequência. Embora a DFT forneça uma
Informações Musicais (MIR, Music Information Retrieval). caracterização completa do sinal no domı́nio da frequência,
A Classificação de Gênero é uma das técnicas mais explora- ela não é ideal para detectar os tons perceptı́veis pelo o ouvido
das na área de MIR [1], tendo uma quantidade considerável de humano. Isso se dá devido ao fato de que o ouvido humano
trabalhos publicados, nos quais aplicam diferentes estratégias não funciona de forma linear. Pesquisadores mostram que a
para se chegar ao mesmo objetivo. Uma abordagem comum é faixa linear de percepção de frequências só chega a 1kHz e
a de converter o sinal musical para o domı́nio da frequência, acima dessa faixa, a percepção acontece de forma logarı́tmica.
extrair certas caracterı́sticas e então agrupar as músicas que Por esse motivo, foi proposta a escala Mel, em que através
possuem propriedades comuns. Existem diversas formas de dos coeficientes MFCC os áudios são caracterizados de forma
extração das caracterı́sticas dos sinais, como as técnicas ZCR mais parecida com o funcionamento do ouvido humano. Para
(Zero Crossing Rate) e a LPC (Linear Predictive Coefficients). se obter os coeficientes MFCC é preciso seguir uma série de
Tais técnicas funcionam bem para diferenciar entre músicas passos, explicados em sequência.
instrumentais e vocais, pois conseguem identificar bem atri-
• Primeiro, o sinal de áudio é subdividido em frames
butos da voz humana. Contudo, não apresentam bom desem-
sobrepostos, usualmente com duração de 20ms a 50ms
penho na classificação de gêneros puramente instrumentais [2].
espaçados por 10ms [8].
Uma outra técnica extremamente eficaz e robusta, mesmo para
• Em seguida, os frames são filtrados por janelas Hamming
a identificação de gêneros parecidos, é a classificação por meio
e seus espectros são obtidos através da DFT, definida por:
dos coeficientes MFCCs [3].

Arthur Sousa de Sena, estudante do curso de Engenharia de Com- N −1


1 X 2π
putacão, Universidade Federal do Ceará, Sobral-CE, Brasil, E-mail: s̄(k) = √ s(n)e−jn N k , (1)
arthurss@ymail.com. N n=0
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ

1 s1 T
s1 T
Banco de Áudios
0.9 Áudios de Treinamento Áudios de Teste
s2 s2

...

...
Gênero 1 Gênero 1 sT sN
f DFT sN f Extração
0.8 Gênero 2 Gênero 2 Framing e dos
Hamming MFCCs

...

...
0.7 Gênero K Gênero K

0.6 c1 c1
c2 c2
Amplitude

Coeficientes para
0.5

...
Treinamento

...
Resultados cK Média cM
Classificador dos Liftering
0.4
MFCCs
Coeficientes
0.3 para Teste

0.2

0.1 Fig. 2. Diagrama de blocos simplificado do sistema implementado.


0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
Frequência [Hz]
• Como último passo, os M coeficientes MFCC são fi-
nalmente obtidos através da transformada inversa de
Fig. 1. Banco de 10 filtros triangulares espaçados uniformemente pela escala cossenos, definida por:
Mel com frequência mı́nima de 200 Hz e máxima de 10 kHz.
M −1  
X πn(m + 0, 5)
c(n) = P̂ (m)cos , (6)
M
em que s̄(k) é o sinal no domı́nio da frequência, s(n) m=0
é o sinal no domı́nio do tempo e N é o tamanho da DFT. para 0 < n < M − 1.

• Então, calcula-se o espectro de potência de s̄(k), dado Os MFCCs contam com uma caracterı́stica de possuir uma
por: alta variância nos coeficientes mais baixos e uma pequena
variância nos mais altos, o que pode piorar o desempenho dos
P (k) = |s̄(k)|2 . (2) classificadores. Por conta disso, geralmente mais uma etapa é
aplicada aos coeficientes, chamada de liftering. Essa etapa é
• O espectro de potência P (k) é então passado por um realizada aplicando um peso em cada coeficiente, dado por:
banco de M filtros triangulares passa-faixas, espaçados
L · sin mπ

de acordo com a escala de frequências Mel, dada por: hm = 1 + L
, (7)
2
para 0 < m < M − 1. Em que hm é o peso aplicado ao
 
f
M el(f ) = 1125 · ln 1 + . (3) m-ésimo coeficiente e L é o parâmetro de lifter, geralmente
700
com valor de 2M .
Assim, a resposta em frequência dos filtros Mel pode ser
definida por:
III. M ODELO DO S ISTEMA
O modelo simplificado do sistema considerado pode ser

 0 k < f (m − 1)
visto no diagrama da Figura 2. Como pode ser visto, o sistema
 k−f (m−1)
f (m − 1) ≤ k ≤ f (m)


f (m)−f (m−1)
Hm (k) = f (m+1)−k , implementado considera como entrada múltiplos áudios de


 f (m+1)−f (m) f (m) ≤ k ≤ f (m + 1) múltiplos gêneros, sendo que, uma porção é utilizada para o
0 k > f (m + 1)

treinamento dos classificadores e uma outra porção é utilizada
(4) para teste, notando que apenas um áudio é processado por
em que f (·) é uma sequência de M + 2 frequências vez. Para cada entrada, considera-se Ns amostras do sinal
espaçadas pela escala Mel, com m variando de 0 a M −1. de áudio, representado por s = [s(1), s(2), · · · , s(Ns )]T ,
A Figura 1 mostra o gráfico de um banco de 10 filtros com frequência de amostragem Fs . A primeira etapa do
gerados por meio de (4). processamento consiste na segmentação do áudio de entrada
em Nf frames de duração Tf , separados por um intervalo de
tempo Td . Assim, a saı́da do processo de segmentação consiste
• Continuando o processo, calcula-se o logaritmo natural em uma matriz de dimensões Nf × bTf · Fs c, dada por:
de cada elemento da sequência de saı́da dos filtros, como
se segue:  T
s1
N    s2
2 +1 S=  , (8)
 
X ..
P̂ (m) = ln  P (k)Hm (k) , (5)   .
k=0 sNf
para 1 < m < M . em que sn = [sn (1), sn (2), · · · , sn (F )] representa o n-ésimo
frame de tamanho F = bTf · Fs c, com 1 ≤ n ≤ Nf .
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ

40
Em seguida, para suavizar as descontinuidades do inı́cio e
Classical
do final de cada um dos frames, eles são filtrados por Nf Metal
Rock
30
janelas Hamming de largura F . Após essa etapa, os frames Pop

são convertidos para o domı́nio da frequência através da DFT,


20
definida em (1), gerando assim, a matriz de espectros:

Amplitude
 T 10
s̄1
 s̄2

0
S̄ =   , (9)
 
..
 .
s̄Nf -10

em que s̄n = [s̄n (1), s̄n (2), · · · , s̄n (NDF T )] representa a DFT
-20
de tamanho NDF T = 2dlog2 (F )e do n-ésimo frame, com 1 ≤ 1 10 18 25 32
Índice do coeficiente Cepstral
n ≤ Nf . A partir dessa etapa, acontece o processo de extração
dos coeficientes MFCCs, explicado detalhadamente na Seção
II. No final do processo de extração, obtêm-se a matriz de Fig. 3. Coeficientes cepstrais médios para diferentes gêneros musicais.
coeficientes MFCCs, representada por:
  de 27, 21s. Além disso, escolheu-se um tempo de frame de
c1 Tf = 30ms com espaço entre frames de Td = 10ms. A
 c2 
C =  . ,
 
(10) menor frequência de corte do banco de filtros foi escolhida
 ..  como 200Hz e a maior como 10kHz. Várias quantidades de
cM coeficientes MFCCs foram testadas.
Para visualizar a primeira etapa da simulação, que con-
em que M é o número de coeficientes e cm =
siste da extração dos MFCCs, foi plotado na Figura 3 os
[cm (1), cm (2), · · · , cm (Nf )] representa o vetor do m-ésimo
coeficientes médios de treinamento dos quatro gêneros con-
MFCC de cada um dos Nf frames, com 1 ≤ m ≤ M .
siderados. Verifica-se que para cada gênero os coeficientes
Esse ponto finaliza o processo de extração dos coeficientes
apresentam valores diferentes, e à maneira que os ı́ndices
MFCCs do áudio atual. Continuando a execução do sistema,
dos MFCCs aumentam, as suas variâncias diminuem. Como
o processo de extração dos MFCCs é repetido até que todos
já foi mencionado, esse comportamento realmente era espe-
os áudios tenham sido processados. Quando a fase de extração
rado, proporcionando assim uma noção de que o processo
é finalizada, calcula-se a média dos MFCCs para cada gênero,
de extração está sendo realizado corretamente. O fato de
resultando assim na matriz de coeficientes médios, dada por:
que a variância dos MFCCs mais altos seja menor, torna
  tais coeficientes não muito úteis para serem aplicados em
c̄1 processos de classificação, pois depois de um certo nı́vel
 c̄2  torna difı́cil de identificar corretamente os diferentes gêneros.
C̄ =  .  , (11)
 
 ..  Por esse motivo o número de coeficientes utilizados varia de
c̄K aplicação para aplicação, de maneira que cada autor sugere
um número de coeficientes diferentes. De fato, tal informação
em que K é o número de gêneros musicais considerados e é um importante parâmetro que influenciará nos resultados
c̄k = [c̄k (1), c̄k (2), · · · , c̄k (M )] representa o vetor de MFCCs dos classificadores. Assim, para descobrir o impacto desse
médios para o k-ésimo gênero, com 1 ≤ k ≤ K. Como última parâmetro, e além disso, descobrir o número mais apropriado
etapa do sistema de classificação, a matriz C̄ é passada como para o propósito deste trabalho, as simulações foram repetidas
entrada para os classificadores. Como já mencionado, foram para várias quantidades de MFCCs.
escolhidos para as análises quatro classificadores, que são: O gráfico da Figura 4 mostra os resultados das taxas de
Decision Tree, kNN, RS-kNN e SVM. Informações detalhadas acerto médias obtidos com a variação dos números de coefici-
para tais classificadores são fornecidas em [1]. entes para todos os classificadores utilizados. Percebe-se dois
comportamentos distintos entre as técnicas de classificação.
IV. R ESULTADOS DE S IMULAÇ ÕES As técnicas Decision Tree, kNN e RS-kNN, exibem compor-
Para a implementação do sistema proposto, foi uti- tamentos parecidos e até um pouco curiosos, em que o desem-
lizada a coleção de amostras de áudio, disponı́vel em [9]. penho médio desse classificadores diminui com o aumento dos
Tais áudios são agrupados em diferentes gêneros e possuem números de coeficientes. Em contraste, o comportamento de
uma frequência de amostragem Fs = 25, 05kHz. Para as desempenho médio do classificador SVM é crescente com o
simulações, foram escolhidos quatro gêneros: Clássico, Metal, aumento do número de MFCCs. É perceptı́vel que para altas
Rock e Pop. De cada gênero foram utilizados 60 áudios para quantidades de coeficientes, o SVM apresenta desempenho
treinamento e 40 para teste, o que resulta em um total de 240 bem superior que todos os outros classificadores, mas para
áudios de treinamento e 160 áudios de teste. De cada áudio baixas quantidades, mais especificamente entre 6 e 8 coeficien-
utilizou-se 600 × 103 amostras, resultando em uma duração tes, o classificador kNN se destaca sobre os outros, mostrando
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ

100 100
87.5
90
90

80
80

Taxa de Acerto (%)


Taxa de Acerto (%)

70

70
60
Classical
Metal
60 50 Rock
Pop
Taxa Média
Decision Tree 40
50
kNN
RS-kNN
30
SVM
40

20
5 10 15 20 25 30 35 40 2 8 14 20 26 32 40
Número de Coeficientes Cepstrais Número de Coeficientes Cepstrais

Fig. 4. Taxas médias de acerto versus número de coeficientes cepstrais para Fig. 5. Taxas de acerto versus número de coeficientes cepstrais para o
diferentes classificadores. classificador SVM.

100
Classical
taxas de acerto consideravelmente altas, ultrapassando os 80%. Metal
Rock

90 %

90 %

90 %
Além do mais, é possı́vel observar que no geral o Decision

87.5 %

87.5 %

87.5 %
Pop
80

82.5 %
Taxa Média
Tree exibe o pior desempenho médio, tendo pouquı́ssimos
resultados melhores que os outros classificadores. Por sua vez,

72.5 %
70 %

70 %

66.25 %
a técnica RS-kNN exibe um desempenho intermediário entre
65 %

65 %

65 %
Taxa de Acerto (%)

60

60 %
58.125 %

57.5 %
os três piores.
55 %

Uma vez que já foi verificado o desempenho médio de


47.5 %

40

42.5 %
todos os classificadores, é bastante interessante agora verificar
o impacto da variação de coeficientes na classificação de
cada gênero de forma separada. Dado o alto desempenho do 20

classificador SVM, escolheu-se ele para fazer esse detalha-


mento. No gráfico da figura 5 é exibido o comportamento 0
detalhado das taxas de acerto para os quatro gêneros, além da Decision Tree KNN KNN with Random Subspace SVM

taxa média, já apresentada anteriormente. Observa-se que na


maioria das vezes o gênero Metal obteve os piores resultados, Fig. 6. Taxas de acerto para diferentes classificadores com um número de
contudo o seu desempenho melhorou à maneira que o número 32 coeficientes cepstrais.
de coeficientes aumentou, atingindo uma taxa de acerto de
80% quando se utilizou 24 coeficientes e chegando a ultra-
passar os 90% a partir de 36 coeficientes. De forma geral, o da segunda pior taxa no classificador kNN. Além do mais,
gênero Pop obteve os melhores resultados, apresentando um verifica-se que na maioria dos classificadores o segundo pior
desempenho maior que 90% logo em uma quantidade de 12 resultado é obtido com o gênero Clássico e que os gêneros
coeficientes. Tanto o gênero Rock como o Clássico apresentam Metal e Pop exibem desempenhos parecidos, notando que no
taxas parecidas até cerca de 28 coeficientes, contudo a partir classificador kNN os resultados desses gêneros são similares
de 30 coeficientes o desempenho de classificação do Rock aos obtidos no SVM. E por fim, mais uma vez percebe-se
começa a cair, chegando a uma taxa inferior a 70% com 40 que o Decision Tree apresenta as piores taxas, só ganhando
coeficientes. Analisando tais gráficos foi possı́vel identificar o do kNN na classificação do gênero Rock.
número de coeficientes que proporcionou a maior taxa média
de acertos, que foi 87.5% quando se utilizou 32 coeficientes. É V. C ONCLUS ÕES
possı́vel notar que nesse valor, o desempenho de classificação Neste artigo, foi realizada uma análise de desempenho
de todos os gêneros foi balanceada, estando entre 80% e de diferentes técnicas de Machine Learning aplicadas à
90%. Dessa forma, para comparar o desempenho de todos os classificação de gêneros musicais através dos coeficien-
classificadores com a classificação de cada gênero detalhada, tes MFCCs. Inicialmente foi fornecida uma fundamentação
escolheu-se como padrão o valor de 32 coeficientes. teórica para o desenvolvimento do trabalho, sendo em seguida
No gráfico da Figura 6 estão expostos os resultados detalha- apresentado um modelo do sistema implementado. Na primeira
dos da classificação realizada pelos quatro classificadores com fase de execução do sistema, os áudios foram processados
o padrão de 32 coeficientes. É possı́vel notar que em todos e os coeficientes cepstrais extraı́dos. Os resultados obtidos
os classificadores, o gênero Rock é o que obtém os piores nessa etapa apresentaram comportamentos condizentes com
resultados, sendo a principal razão pela diminuição da média a teoria. Na segunda fase, uma parte dos coeficientes foi
geral de desempenho, mostrando um desvio de quase 20% utilizada para treinar os classificados, e a outra porção foi
DISCIPLINA DE PROCESSAMENTO DIGITAL DE SINAIS, 2017.1 - CURSO DE ENGENHARIA DE COMPUTAÇÃO, UNIVERSIDADE FEDERAL DO CEARÁ

utilizada realizar os testes. Pôde-se analisar o impacto que


a quantidade de coeficientes cepstrais tem sobre o desempe-
nho dos classificadores. A partir da análise foi determinada
quantidade de coeficientes mais adequada para ser utilizada
na classificação dos gêneros considerados. De forma geral,
todos os classificadores exibiram resultados satisfatórios, pro-
porcionando uma taxa média de acerto acima de 50%. Além
do mais, foi mostrado que, dentre os classificadores testados,
o SVM obtêm as maiores taxas de acerto na classificação dos
gêneros musicais, chegando a uma expressiva taxa de 87%.
Portanto, ficou claro o potencial que os coeficientes
MFCCs possuem para serem utilizados como parâmetro de
classificação de gênero musical, além de ser mostrada a im-
portância do classificador utilizado e o impacto da quantidade
de coeficientes escolhida. Em trabalhos seguintes poderiam ser
analisados os efeitos da variação de outros parâmetros, como
a frequência de amostragem, o tamanho dos frames de áudio
ou até mesmo a utilização de outros filtros.

R EFER ÊNCIAS
[1] Z. Fu, G. Lu, et al., A Survey of Audio-Based Music Classification and
Annotation. IEEE Transactions on Multimedia, 2011.
[2] C. Zheng e J. Xu, Multi-modal Music Genre Classification Approach.
Intl. Conf. on Computer Science and Information Technology, Vol. 8,
2010, pp. 398-402.
[3] S. Molau, M. Pitz, R. Schluter e H. Ney, Computing Mel-Frequency
Cepstral Coefficients on The Power Spectrum. IEEE International Con-
ference on Acoustics, Speech, and Signal Processing, 2001.
[4] M. Mandel and D. Ellis, Song-level features and SVMs for music
classification. Proc. Int. Conf. Music Information Retrieval, 2005.
[5] P. M. Chauhan, N. P. Desai, Mel Frequency Cepstral Coefficients
(MFCC) Based Speaker Identification in Noisy Environment Using
Wiener Filter. International Conference on Green Computing Commu-
nication and Electrical Engineering, 2014.
[6] C. D. A. Gordillo, Reconhecimento de Voz Contı́nua Combinando os
Atributos MFCC e PNCC com Métodos de Robustez SS, WD, MAP e
FRN. PUC-Rio, 2013.
[7] F. G. Barbosa e W. L. S. Silva, Support Vector Machines, Mel-Frequency
Cepstral Coefficients and the Discrete Cosine Transform Applied on
Voice Based Biometric Authentication. SAI Intelligent Systems Confe-
rence, 2015.
[8] J. Aucouturier e F Pachet, Improving Timbre Similarity: How high is
the sky?. Journal of Negative Results in Speech and Audio Sciences,
pp. 1-13, 2004 .
[9] GTZAN Dataset: Musical genre classification of audio signals. [On-
line]. Disponı́vel: http://marsyasweb.appspot.com/download/data sets.
[Acesso: 19 - Junho - 2017].
[10] D. P. Kumar, B. J. Sowmya, et al., A Comparative Study of Classifiers
for Music Genre Classification based on Feature Extractors. IEEE
Distributed Computing, VLSI, Electrical Circuits and Robotics, 2016.

Anda mungkin juga menyukai