Anda di halaman 1dari 89

UNIVERSIDAD NACIONAL DE TRUJILLO

FACULTAD DE CIENCIAS F

ISICAS Y MATEM

ATICAS
ESCUELA DE INFORM

ATICA
DESARROLLO DE UN M

ETODO PARA LA
CLASIFICACI

ON AUTOM

ATICA
DE ARCHIVOS MUSICALES USANDO LA T

ECNICA BAG
OF WORDS
Tesis presentada para obtener el t

tulo de
INGENIERO INFORM

ATICO
Autores:
S

anchez Enriquez, Heider Ysa

as
Rodr

guez Maysundo, Eduardo


Asesor:
Castillo Diestra, Carlos Enrique
2011

Indice general
RESUMEN 8
ABSTRACT 9
1. INTRODUCCI

ON 10
1.1. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.2. Objetivos Especcos . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Descripci on del trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Antecedentes Previos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Organizaci on del trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. FUNDAMENTOS DE LA M

USICA 16
2.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2. Sonido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1. Magnitudes Fsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3. Sonidos Musicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1. Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4. Genero Musical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.1. Clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 24
3.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2. Digitalizaci on de la Se nal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1. Se nal Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.3. Cuantizaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3. Representacion en el dominio de Frecuencias . . . . . . . . . . . . . . . . . 27
3.3.1. Transformada Discreta de Fourier . . . . . . . . . . . . . . . . . . . 28
2

Indice general 3
3.3.2. Transformada R apida de Fourier (FFT) . . . . . . . . . . . . . . . 29
3.3.3. Enventanado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.4. Transformada Discreta del Coseno . . . . . . . . . . . . . . . . . . . 33
3.3.5. Filtrado de la Se nal . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 38
4.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2. Mel Frecuency Cepstral Coecients (MFCC) . . . . . . . . . . . . . . . . . 38
4.2.1. Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2. Calculo de los Coecientes Mel . . . . . . . . . . . . . . . . . . . . 40
4.3. Caractersticas en Tramas de Tiempo Especializadas . . . . . . . . . . . . 44
4.4. C alculo del Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.1. Esquema del Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5. Vector Descriptor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 50


5.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2. Denici on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3. Clasicaci on para datos linealmente separables . . . . . . . . . . . . . . . . 52
5.4. Clasicaci on para datos linealmente no separables . . . . . . . . . . . . . . 53
5.5. Clasicaci on para datos no lineales . . . . . . . . . . . . . . . . . . . . . . 55
5.6. Clasicaci on m ultiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6. DESARROLLO DEL M

ETODO 58
6.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.2. Bag of Word: Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.2.1. BoW en la Clasicacion de documentos . . . . . . . . . . . . . . . . 59
6.2.2. BoW en la Clasicacion de Imagenes . . . . . . . . . . . . . . . . . 59
6.3. BoW para la Clasicaci on Automatica de Archivos Musicales . . . . . . . . 60
6.3.1. Extraccion de Caractersticas . . . . . . . . . . . . . . . . . . . . . 61
6.3.2. Elaboraci on del diccionario . . . . . . . . . . . . . . . . . . . . . . . 61
6.3.3. Generacion del Histograma de Cl uster (HoC) . . . . . . . . . . . . . 65
6.3.4. Clasicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7. ENTRENAMIENTO DEL MODELO 67
7.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2. Herramientas de Implementaci on . . . . . . . . . . . . . . . . . . . . . . . 67
7.2.1. Libreras de Audio . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.2.2. Librera para las SVM: LibSVM . . . . . . . . . . . . . . . . . . . . 69

Indice general 4
7.3. Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4. M odulos de Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4.1. Modulo de Descriptores . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4.2. Modulo de Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . 71
7.4.3. Modulo de Histograma de Entrenamiento . . . . . . . . . . . . . . . 71
7.4.4. Modulo de Clasicacion SVM . . . . . . . . . . . . . . . . . . . . . 72
8. EVALUACI

ON Y RESULTADOS 73
8.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.2. Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.3. M odulos de Evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.3.1. Modulo de Histograma de Evaluacion . . . . . . . . . . . . . . . . . 73
8.3.2. Modulo de Prediccion SVM . . . . . . . . . . . . . . . . . . . . . . 74
8.4. Evaluando la Mejor Medida de Distancia . . . . . . . . . . . . . . . . . . . 74
8.5. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.5.1. Evaluando el N umero de Cl usteres . . . . . . . . . . . . . . . . . . 76
8.5.2. Evaluando el kernel de clasicaci on . . . . . . . . . . . . . . . . . . 78
9. CONCLUSIONES Y RECOMENDACIONES 84
9.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Indice de guras
1.1. Esquema del proceso para la clasicacion de archivos musicales . . . . . . . 15
2.1. Longitud de Onda en una sinusoide . . . . . . . . . . . . . . . . . . . . . . 17
2.2. Ejemplos de ondas de distintas frecuencias . . . . . . . . . . . . . . . . . . 17
2.3. Amplitud de una onda sonora . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4. Sonido agudo, mayor frecuencia (izquierda). Sonido grave, menor frecuencia
(derecha) [BEE09] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5. Sonido fundamental [BEE09]. . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6. Sonido complejo [BEE09]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.7. Sonido fuerte, mayor amplitud de onda (izquierda). Sonido suave, menor
amplitud de onda (derecha) [BEE09]. . . . . . . . . . . . . . . . . . . . . . 21
2.8. Ejemplos de niveles sonoros en dB respecto al umbral de audici on [HJ06]. . 21
2.9. Jerarqua de clasicaci on de generos musicales [TC02]. . . . . . . . . . . . 23
3.1. Paso de se nal Anal ogica a Digital y Digital a Analogica . . . . . . . . . . . 25
3.2. El Proceso de muestreo [JR05]. . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3. Representacion conceptual del proceso de la digitalizaci on de la se nal anal ogi-
ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4. Etapas de digitalizaci on: Se nal original (izquierda), Se nal muestreada con
amplitudes analogicas (derecha), Se nal digital (abajo) [WS99]. . . . . . . . 28
3.5. Gr aca en el dominio del tiempo (izquierda) y su correspondiente en fre-
cuencias (derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.6. Esquema para una se nal de N=8 puntos [wikipedia]. . . . . . . . . . . . . . 31
3.7. Solapamiento de ventanas . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.8. Representacion graca de los tipos de Ventanas [wikipedia]. . . . . . . . . . 35
3.9. Espectro de las distintas ventanas [SV05] . . . . . . . . . . . . . . . . . . . 36
3.10. Izquierda, la ventana Haming (azul) y la se nal original (rojo). Derecha, la
se nal resultante de la multiplicaci on [SV05] . . . . . . . . . . . . . . . . . . 36
3.11. Representaci on de la DTC- I (a), DTC-II (b), DTC-III (c) y DTC-IV (d)
respectivamente [HAH01]. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5

Indice de guras 6
3.12. Tipos de ltros [VW99] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1. Representacion del tracto vocal h(n) como un ltro lineal variable en el
tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2. Diagrama de bloques del algoritmo de front-end seg un el est andar ETSI
ES 201 108 [ETSI00] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3. Escala Mel con 5 Bins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4. Filtro triangular con altura 1 . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1. Esquema de aplicacion de las SVM [GA05]. . . . . . . . . . . . . . . . . . . 51
5.2. Muestra del hiperplano que dos clases linealmente separables . . . . . . . . 52
5.3. Muestra del hiperplano que dos clases linealmente no separables . . . . . . 54
5.4. Mapeo a un espacio caracterstico para datos no linealmente separables . . 55
6.1. Proceso clasico de clasicacion de patrones de audio. . . . . . . . . . . . . 58
6.2. Incorporando la tecnica Bag of Word al proceso clasico de clasicacion. . . 58
6.3. C alculo del Vector Cuantizacion de una cancion. . . . . . . . . . . . . . . 59
6.4. Frecuencia de palabras en un texto. . . . . . . . . . . . . . . . . . . . . . 60
6.5. Histograma de Frecuencia de palabras. . . . . . . . . . . . . . . . . . . . . 60
6.6. Clasicaci on de documentos por Histograma de Frecuencias. . . . . . . . . 61
6.7. Clasicaci on de im agenes con m ultiples BoW [BCS09]. . . . . . . . . . . . 62
6.8. BoW, Etapas de Entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . 62
6.9. BoW, Etapas de Evaluacion. . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.10. Descriptores de un archivo musical. . . . . . . . . . . . . . . . . . . . . . . 63
6.11. Agrupamiento con k-medias de los vectores descriptores de cada archivo
musical de entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.12. Histograma de Cl uster de un archivo musical . . . . . . . . . . . . . . . . . 65
7.1. Categoras de clasicaci on de archivos musicales consideradas en este trabajo 68
7.2. Java Sound API para digitalizar se nal analogica . . . . . . . . . . . . . . . 69
7.3. Arquitectura de la Librera de JavaLayer para descomprimir MP3 [Java-
Zoom]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.1. Gr aco Resumen de la evaluaci on del n umero de cl usteres . . . . . . . . . 80
8.2. Gr aco Resumen de la evaluaci on del n umero de cl usteres . . . . . . . . . 82

Indice de cuadros
3.1. Tipos de Ventanas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
8.1. Resultado de la Mejor Medida de Distancia . . . . . . . . . . . . . . . . . . 76
8.2. Matriz de Confusion Porcentual . . . . . . . . . . . . . . . . . . . . . . . . 76
8.3. Resultado Experimental con 50 cl usteres . . . . . . . . . . . . . . . . . . . 77
8.4. Resultado Experimental con 100 cl usteres . . . . . . . . . . . . . . . . . . 78
8.5. Resultado Experimental con 150 cl usteres . . . . . . . . . . . . . . . . . . 79
8.6. Cantidad de Vectores de Soporte por cada experimento . . . . . . . . . . . 79
8.7. Resultado Experimental con Kernel Sigmoide . . . . . . . . . . . . . . . . 80
8.8. Resultado Experimental con Kernel Lineal . . . . . . . . . . . . . . . . . . 81
8.9. Resultado Experimental con Kernel Polin omica . . . . . . . . . . . . . . . 81
8.10. Resultado Experimental con Kernel RBF . . . . . . . . . . . . . . . . . . . 82
8.11. Resultado general del porcentaje de acierto aplicando el metodo desarrollado 83
7
RESUMEN
Los archivos musicales presentan diversas caractersticas relacionados al timbre, la to-
nalidad y la rtmica; adem as considerando la enorme variedad de m usica existente, surge la
necesidad de poder clasicar y organizar las canciones incluyendo criterios no comunes en
los reproductores de audio convencionales. Dichas clasicaciones son posibles si aplicamos
la extracci on de caractersticas a la se nal digital del audio, de tal manera que podamos
obtener un patr on lo sucientemente caracterstico que servira para el entrenamiento de
un modelo clasicador.
El presente trabajo muestra el desarrollo de un metodo para la clasicaci on autom atica de
archivos musicales, que incorpora una fase medi atica entre la extracci on de caractersti-
cas y el clasicador, utilizando la tecnica Bag of Word. Esta tecnica trata de hallar un
histograma de distribuci on del conjunto de vectores de caractersticas en un espacio de
dimensi on mayor; este histograma ser a nuestro patron de caractersticas del archivo mu-
sical. Para la clasicaci on y reconocimiento de los patrones utilizamos las Maquinas de
Soporte Vectorial (SVM).
Usando el metodo propuesto obtuvimos un acierto de 80.65 % aplicados a una base de
4500 piezas musicales en formato MP3.
8
ABSTRACT
Music les have dierent features related to the sound, pitch and rhythm; besides
considering the enormous variety of existing music, the need arises to classify and orga-
nize songs including criteria that are not common in conventional audio players. These
classications are possible if we apply feature extraction to digital audio, so we can get a
pattern, which has a characteristic good enough to be used to train a classier model.
This project shows the development of a method to the automatic sorting of music -
les, which incorporates a media stage between feature extraction and classier, using the
technique Bag of Word. This technique tries to nd a distribution histogram of all feature
vectors in a space of higher dimension, this histogram will be our standard features music
le. For the classication and pattern recognition, we use the Support Vector Machines
(SVM).
Using this method, we obtained an accuracy of 80.65 % applied to a 4500 pieces of music
in MP3 format.
9
Captulo 1
INTRODUCCI

ON
1.1. Planteamiento del problema
Desde hace un buen tiempo la producci on musical sigue aumentando considerable-
mente, debido al incremento de factores tecnol ogicos tales como: la alta compresi on de
datos de los formatos musicales, el rapido crecimiento de la capacidad de almacenamien-
to de los dispositivos, desarrollo desenfrenado del software inform atico para la gestion y
reproducci on de m usica digital, entro otros.
La forma com un para clasicar los archivos musicales dentro de una biblioteca musical se
basa en la edicion del encabezado del archivo (metadatos), esto quiere decir que se deben
de proporcionar datos como: ttulo de la canci on, genero, nombre del album, interpre-
te, etc. Los cuales deben editarse de forma manual, trayendo consigo resultados no muy
favorables si queremos clasicar nuestras canciones obedeciendo a ciertos criterios de an ali-
sis de contenido. Como ejemplos cl asicos tenemos a los reproductores convencionales de
m usica como Winamp, Aimp2 y Windows Media Player. Aunque ya se comercializan re-
productores relativamente inteligentes que incorporan la clasicaci on automatica, pero su
uso aun no es com un en nuestro medio.
La necesidad de clasicar los archivos musicales seg un diversos criterios como puede ser:
por genero musical (hip hop, metal, rock, jazz, etc.), por discriminaci on de voz (con voz,
sin voz), por tipo de sonido (mesuradas, energicas), por genero de interprete (hombre,
mujer, ni no) y generacion de listas inteligentes basados en la similitud del contenido,
permitiendo realizar una selecci on de mucha utilidad para el usuario; es un problema de
actual investigaci on conocida como Clasicaci on Automatica del Audio.
Por ello en este trabajo de tesis pretendemos desarrollar un metodo alternativo para re-
solver el problema de la clasicaci on de archivos musicales orientandonos principalmente
a la clasicacion por genero musical, discriminaci on de voz y tipo de sonido. Concen-
traremos la investigacion en la adaptacion de la tecnica Bag of Word(aplicada en la
10
Captulo 1. INTRODUCCI

ON 11
clasicaci on de im agenes) a se nales de audio, y utilizaremos tecnicas de aprendizaje au-
tom atico de maquinas (SVM, M aquina de soporte Vectorial) para el entrenamiento de
nuestro modelo.
Normalmente los archivos musicales tienen una duraci on de reproduccion mayor a 3 mi-
nutos implicando de manera proporcional a la longitud de la se nal del audio, Esto quiere
decir que habr a un alto coste de procesamiento (Tiempo de Ejecuci on y espacio en memo-
ria) debido al gran tama no del vector digitalizado de la se nal, por ejemplo probando en
una PC Corel 2 Duo de 2.4 Ghz y Memoria Ram de 2 GB para aplicar la Transformada
R apida de Furier a un archivo de voz en formato WAV de 25 KB el tiempo de ejecuci on
es de 100 ms y para un archivo musical de 4 Mb es de 16105 ms (16 segundos aprox.)
ocupando 4096 KB de memoria RAM.
Una opci on interesante encontrada en la literatura seria no trabajar con todo el vector
sino con un resumen caracterstico [Gabriela, Virginia y Laura, 2005], lo cual al ser es-
tudiada redunda con las mismas tecnicas utilizadas posteriormente en la extraccion de
caractersticas. Otra alternativa mas consistente para nuestro prop osito es la de extraer
un conjunto de descriptores caractersticos de toda la se nal ubicando puntos de interes
estrategicos [Georoy y Xavier, 2002], siendo parte de nuestra investigaci on la identica-
ci on de aquellos puntos de interes.
Ante lo expuesto, el problema que vamos a abordar en el presente trabajo es: Cu ales
son los resultados de Clasicaci on si aplicaramos la tecnica Bag of Word al conjunto de
descriptores obtenidos y su entrenamiento con SVM sobre archivos musicales?, el cual
busca ser un aporte en la Clasicaci on Autom atica del Audio.
1.2. Objetivos
1.2.1. Objetivo General
Lograr el desarrollo de un metodo para la clasicaci on autom atica de archivos musi-
cales utilizando ecazmente la tecnica Bag of Word y la Maquina de Soporte Vectorial de
tal manera que permita realizar consultas ecientes.
1.2.2. Objetivos Especcos
Analizar el proceso de extracci on de caractersticas de una se nal de audio para su
utilizaci on en la Clasicacion Autom atica.
Analizar el funcionamiento de la Maquina de Soporte vectorial (SVM) para el en-
trenamiento y clasicacion de patrones de audio.
Captulo 1. INTRODUCCI

ON 12
Dise nar el metodo para la clasicaci on automatica de archivos musicales con la
tecnica Bag of Word.
Realizar las pruebas necesarias para demostrar que el metodo desarrollado cumple
los objetivos planteados.
1.3. Descripcion del trabajo
Para poder lograr el objetivo planteado, en el proceso de desarrollo abordaremos diver-
sos temas de estudio relacionados al procesamiento de se nales digitales y reconocimiento
de patrones. El presente trabajo est a dividido b asicamente en 3 partes:
En la primera parte procesaremos la se nal digitalizada y extraeremos un conjunto de
descriptores en intervalos cortos de tiempo, empleando las siguientes tecnicas:
Relacionados a la Textura Tmbrica:
MFCC: Coecientes Cepstrales en Frecuencia Mel.
Caractersticas en Tramas de Tiempo Especializadas.
Relacionados al Tono Musical:
C alculo del PITCH del Audio.
La cantidad de descriptores por archivo vara seg un la duraci on de la canci on, adem as
se necesita compactar todos estos descriptores a un solo vector caracterstico de mayor
dimensi on.
En la segunda parte trataremos de adecuar la tecnica Bag of Word para reducir nuestro
conjunto de descriptores en un solo vector. Dicha tecnica indica que debemos agrupar
todos los descriptores de nuestra base de entrenamiento aplicando un algoritmo de agru-
pamiento (en nuestro caso utilizamos K-means), de tal manera que podamos obtener los
mejores Centroides de cada cl uster. Luego se obtiene por cada archivo un histograma de
incidencias a cada cl uster, de dimensi on igual a la cantidad de cl usteres utilizados en la
agrupaci on.
En la tercera parte entrenaremos nuestro modelo utilizando las Maquinas de Soporte Vec-
torial para la Clasicaci on, los histogramas obtenidos ser an los datos de entrada para el
SVM y se seleccionar a los mejores par ametros de entrenamiento para un optimo resultado.
En la gura 1.1 se puede visualizar el esquema para la clasicaci on de archivos musi-
cales.
Captulo 1. INTRODUCCI

ON 13
1.4. Antecedentes Previos
La clasicaci on de audio y/o sonido ha surgido con interesantes investigaciones en los
ultimos a nos. Su antecedente principal son los trabajos de Consulta por Tarareo (Ghia-
set, 1995) dando inicios a la necesidad de modelos de clasicaci on inteligente de los datos
de audio. Kurth y Clausen (2001) propusieron un metodo de indexacion autom atica en
espacios metricos para la recuperaci on de audio.
Para el a no 2002, en el evento denominado IEEE TRANSACTIONSONSPEECH AND
AUDIO PROCESSING George y Perry miembros de la IEEE presentaron uno de los
primeros trabajos sobre la clasicaci on autom atica de se nales de audio en una jerarqua
de generos musicales. George y Perry (2002) propusieron 3 conjuntos de patrones para la
representaci on: la textura tmbrica, el contenido rtmico y el contenido del Pitch. Logran-
do una clasicaci on de 61 % de acierto considerando 10 generos musicales.
Tambien en ese mismo a no la European I.S.T presenta un nuevo proyecto denominado
CUIDADO para la gestion de base de datos incluyendo un sistema de clasicaci on au-
tom atica de sonido basado en Taxonomas para la eleccion de descriptores de la se nal y
para llevar a cabo la clasicaci on, emplean el Modelo de Mezclas Gaussianas (GMM) . El
GMM es una de las primeras tecnicas en mostrar muy buenos resultados en la clasica-
ci on de datos de audio y existen muchas publicaciones que emplean esta tecnica para la
clasicaci on automatica.
Por otro lado el empleo de las Maquinas de Soporte Vectorial (SVM) para la clasicaci on
de se nales de audio se viene empleando fuertemente dentro de los trabajos de Clasicaci on
de patrones, y esta convirtiendose en la tecnica m as eciente en el campo de la clasica-
ci on autom atica de audio.
Ingo y Katharina (2004), presentan un marco unicado de extracci on y clasicaci on; ellos
utilizaron una estructura de arboles espaciales para la construccion automatica de secuen-
cias de transformaciones de datos desde el enfoque de la programaci on genetica, adem as
emplearon las Maquina de Soporte Vectorial (librera mySVM) para la clasicaci on por
aprendizaje. Este modelo se aplic o a la clasicaci on musical por generos musicales.
Olivier y Gael (2008), en su trabajo denominado Transcription and Separation of Drum
Signals From Polyphonic Music dise na un estructura para la estimacion de la probabi-
lidad a posteriori, basado en el clasicador C-Support Vector Machines (C-SVM), como
datos de entrenamiento utiliza un subconjunto de archivos independientes a la base de
datos de evaluacion, obteniendo resultados sobre el 70 % de acierto.
Captulo 1. INTRODUCCI

ON 14
1.5. Organizaci on del trabajo
El presente trabajo se compone de 9 captulos los cuales constituyen el cuerpo de
la tesis. A continuacion se presenta de manera breve el contenido de cada uno de estos
captulos para que el lector pueda tener una idea panor amica y global del an alisis que se
efect ua en cada uno de ellos.
Captulo 2- Fundamentos de la M usica: Conceptos y Propiedades importantes de carac-
terizaci on musical.
Captulo 3- Procesamiento Digital de Se nales de Audio: Conceptos previos de trata-
miento de la se nal que ser an utilizados en las tecnicas que se describen en el captulo 4.
Captulo 4- Tecnicas de Extraccion de Caractersticas: Estudio y An alisis de las tecni-
cas para extraer los parametros de caracterizaci on de los archivos musicales, estrategicas
empleadas para optimizar dichos par ametros.
Captulo 5 - Clasicaci on con M aquinas De Soporte Vectorial: Importante para la fase
de entrenamiento.
Captulo 6- Dise no del Metodo: An alisis de la tecnica Bag of Words en la clasicacion
de documentos e Im agenes. Aqu se plantea Bag of Words para su aplicaci on en la clasi-
caci on de archivos musicales.
Captulo 7- Entrenamiento del Modelo: Se especica el marco experimental, las herra-
mientas utilizadas y los par ametros inciales.
Captulo 8- Evaluacion y Resultados: Evaluaremos el metodo dise nado con una base de
datos de archivos musicales de diferentes categoras de clasicaci on.
Captulo 9- Conclusiones y Recomendaciones.
Captulo 1. INTRODUCCI

ON 15
Figura 1.1: Esquema del proceso para la clasicacion de archivos musicales
Captulo 2
FUNDAMENTOS DE LA M

USICA
2.1. Resumen
La m usica es denida como el arte de organizar coherentemente un conjunto de sonidos
y silencios con el n de obtener un sonido agradable al odo, armonioso y mel odico. Pero
desde tiempos antiguos ha sido conceptualizada tambien como una ciencia exacta que
obedece a las leyes denidas y se fundamenta en los principios del sonido. A continuaci on
estudiaremos ciertos conceptos relevantes para comprender las tecnicas que se utilizaran
en el desarrollo del metodo.
2.2. Sonido
Desde un punto de vista fsico, el sonido es una vibracion que se propaga en un medio
el astico (s olido, lquido o gaseoso), generalmente el aire. Cuando nos referimos al sonido
audible por el odo humano, lo denimos como una sensaci on percibida en el organo del
odo, producida por la vibraci on de las partculas que se desplazan (en forma de onda
sonora) a traves de un medio el astico que las propaga en forma de ondas.
Para que se produzca un sonido es necesaria la existencia de: un emisor o cuerpo vi-
brante, un medio el astico transmisor de esas vibraciones y un receptor que capte dichas
vibraciones.
2.2.1. Magnitudes Fsicas
Como todo movimiento ondulatorio, el sonido puede representarse como una suma
de curvas sinusoidales con un factor de amplitud, que se pueden caracterizar por las
mismas magnitudes y unidades de medida que cualquier onda de frecuencia bien denida:
Longitud de onda, frecuencia, amplitud, volumen y potencia ac ustica.
16
Captulo 2. FUNDAMENTOS DE LA M

USICA 17
Longitud de Onda: Es la distancia que recorre la onda en el intervalo de tiempo trans-
currido entre dos picos consecutivos (gura 2.1). Se representa por la letra griega .
Seg un el Sistema Internacional (SI) su unidad de medida es el metro (m).
Figura 2.1: Longitud de Onda en una sinusoide
Frecuencia: La frecuencia es una medida que se utiliza generalmente para indicar el
n umero de repeticiones de cualquier fen omeno o suceso periodico en la unidad de
tiempo. Para calcular la frecuencia de un suceso, se contabilizan un n umero de ocu-
rrencias de este, teniendo en cuenta un intervalo temporal, luego estas repeticiones
se dividen por el tiempo transcurrido (gura 2.2).
Seg un el SI su unidad de medida es en hercios (Hz). La frecuencia es la inversa del
periodo T:
f =
1
T
Figura 2.2: Ejemplos de ondas de distintas frecuencias
Amplitud: Es una medida de la variaci on m axima del desplazamiento u otra magnitud
fsica que vara periodica o cuasi peri odicamente en el tiempo. Indica la cantidad de
energa que contiene una se nal sonora ( gura 2.3).
En ac ustica la amplitud normalmente se mide en decibelios (dB).
Sin embargo, un sonido complejo cualquiera, no esta caracterizado por los par ametros
anteriores, ya que en general un sonido cualquiera es una combinacion de ondas sonoras
que dieren en los tres par ametros anteriores. La caracterizaci on de un sonido arbitra-
riamente complejo implica analizar tanto la energa transmitida como la distribucion de
dicha energa entre las diversas ondas componentes, para ello resulta util investigar la
Captulo 2. FUNDAMENTOS DE LA M

USICA 18
Figura 2.3: Amplitud de una onda sonora
potencia ac ustica y el espectro de frecuencias, que permite conocer en que frecuencias se
transmite la mayor parte de la energa.
2.3. Sonidos Musicales
El sonido en combinacion con el silencio, es la materia prima de la m usica. En m usica
los sonidos se clasican en categoras como: largos y cortos, fuertes y debiles, agudos y
graves, agradables y desagradables. El sonido ha estado siempre presente en la vida coti-
diana del hombre.
Es preciso establecer la diferencia entre un sonido y un ruido. Los sonidos son aquellos que
nos producen sensacion agradable, bien porque son sonidos musicales o porque son como
las slabas que forman las palabras, sonidos armonicos, que encierran cierto signicado
al tener el odo educado para ellos. Si se obtienen gr acas de registro de las vibraciones
de sus ondas se observa que, en general, los sonidos musicales poseen ondas casi sinusoi-
dales, aunque alteradas a veces apreciablemente por la presencia de sus arm onicos. Los
restantes sonidos arm onicos conservan todava una total periodicidad aunque su gr aca se
aleje notablemente de una sinusoide, por estar compuestos de varios grupos de ondas de
frecuencias fundamentales distintas, acompa nadas de algunos de sus arm onicos. Por otro
lado los ruidos presentan, de ordinario, gracas carentes de periodicidad y es precisamente
esta peculiaridad lo que produce que la sensacion cerebral resulte desagradable o molesta
[SJP03].
La dimension de la m usica es el tiempo y su medio de expresion es el sonido. Cada sonido
presenta sus propias caractersticas que lo hacen peculiar y diferente.
2.3.1. Caractersticas
Un sonido en general tiene cuatro caractersticas: altura, intensidad, timbre y dura-
ci on. Para la descripci on de los sonidos musicales se utilizan las tres primeras, las cuales
Captulo 2. FUNDAMENTOS DE LA M

USICA 19
corresponden exactamente a tres caractersticas fsicas: la frecuencia, la amplitud y la
composici on arm onica (forma de onda) respectivamente.
Como mencionamos todo sonido tiene una duracion, y a lo largo de esta, cualquiera de
estos tres parametros puede variar (los sonidos naturales jam as son perfectamente estables
o constantes).
A continuaci on se analizar a cada una de estas caractersticas.
Altura: La altura o Tono esta directamente relacionada con la frecuencia de oscilaci on
de una onda sonora, pero ambos terminos no son sin onimos. De hecho, muchos soni-
dos (como los percusivos) no tienen una altura denida. El motivo de esta aparente
paradoja es que, mientras la frecuencia es una propiedad fsica indisociable de todo
aquello que, como el sonido, vibra u oscila, la altura es una cualidad subjetiva que
percibimos solo en algunos sonidos [SJP03].
Lo que hace que un sonido posea o no una altura clara, es b asicamente su periodi-
cidad. Es necesario que un sonido sea aproximadamente peri odico, es decir que su
frecuencia de oscilaci on no vare (o vare poco) dentro de un determinado lapso de
tiempo, para que se llegue a percibir una altura. Si se analiza un lapso mayor de
tiempo, la frecuencia s puede variar, y en este caso, lo que se percibe son alturas
variables en el tiempo.
Por esta caracterstica el sonido puede clasicarse en agudo, medio y grave; consti-
tuye el tono del sonido ( gura 2.4). En el canto de los p ajaros destacan los sonidos
agudos, que contrasta con el rugido de un leon caracterizado por sonidos graves.
La altura se representa mediante las notas musicales: DO-RE-MI-FA-SOL-LA-SI.
Figura 2.4: Sonido agudo, mayor frecuencia (izquierda). Sonido grave, menor frecuencia
(derecha) [BEE09]
Timbre: El timbre podra denirse como el color de un sonido, y es lo que ayuda
a caracterizar y distinguir diferentes tipos de instrumentos, o a reconocer a las
personas por su voz [HJ06]. Esta caracterstica esta ligada con la forma de onda que
viene determinada por los arm onicos, que son una serie de vibraciones subsidiarias
que acompa nan a una vibraci on primaria o fundamental (gura 2.5) del movimiento
ondulatorio (especialmente en los instrumentos musicales). Normalmente, al hacer
Captulo 2. FUNDAMENTOS DE LA M

USICA 20
vibrar un cuerpo, no obtenemos un sonido puro, sino un sonido complejo (gura
2.6) compuesto de sonidos de diferentes frecuencias. A estos se les llama armonicos.
La frecuencia de los arm onicos, siempre es un m ultiplo de la frecuencia mas baja
llamada frecuencia fundamental o primer armonico. A medida que las frecuencias
son m as altas, los segmentos en vibraci on son m as cortos y los tonos musicales est an
m as pr oximos los unos de los otros.
Resumiendo, el timbre indica la forma en que la energa se distribuye entre los
distintos arm onicos y la forma en que esta distribuci on cambia en el tiempo.
Figura 2.5: Sonido fundamental [BEE09].
Figura 2.6: Sonido complejo [BEE09].
Intensidad: Esta caracterstica nos permite distinguir entre sonidos fuertes o debiles
(gura 2.7). La podemos denir como la fuerza con la que se produce un sonido.
Adem as de la amplitud en la percepcion de la intensidad, inuye la distancia a que
se encuentra situado el foco sonoro del oyente y la capacidad auditiva de este.
La intensidad depende del cuadrado de la amplitud de estas oscilaciones. La per-
cepcion de la intensidad sonora es en realidad, un fenomeno auditivo muy complejo,
mucho m as que el de la altura, y lo que sigue es una simplicaci on [SJP03].
La Dinamica es un elemento de la m usica que mide los cambios de intensidad. Las
intensidades de diferentes sonidos pueden variar, en varios millones de ordenes de
magnitud (es decir, el sonido mas intenso que podamos or, lo sera varios millones
de veces mas, que el m as tenue). En la gura 2.8 se muestran algunos valores tpicos.
Captulo 2. FUNDAMENTOS DE LA M

USICA 21
Figura 2.7: Sonido fuerte, mayor amplitud de onda (izquierda). Sonido suave, menor
amplitud de onda (derecha) [BEE09].
Figura 2.8: Ejemplos de niveles sonoros en dB respecto al umbral de audicion [HJ06].
2.4. Genero Musical
Un genero musical es una categora que re une composiciones musicales que comparten
distintos criterios de anidad. Estos criterios pueden ser especcamente musicales, como
el ritmo, la instrumentacion, las caractersticas arm onicas o melodicas o su estructura, y
tambien basarse en caractersticas no musicales, como la regi on geogr aca de origen, el
perodo historico, el contexto sociocultural u otros aspectos m as amplios de una determi-
nada cultura.
2.4.1. Clasicaci on
Problematica.- Existen diferentes problemas para la clasicaci on de los generos musi-
cales, entre los cuales mencionamos a continuaci on.
Subjetividad: Uno de los inconvenientes al agrupar m usica por generos reside en
que se trata de un proceso subjetivo que resulta muy inuido por el conoci-
miento personal y la forma de cada uno de sentir y escuchar la m usica.
Captulo 2. FUNDAMENTOS DE LA M

USICA 22
Cambio del Contexto Cultural:

Este problema afecta especialmente al concep-
to de popularidad en la clasicacion por generos. Por ejemplo, la m usica barro-
ca o renacentista, que la mayora de las personas agrupara actualmente bajo
el supra genero de m usica academica, ya que su difusion e interpretaci on
est a limitada a sectores especializados.
Relatividad: Algunos generos musicales son muy vagos, y pueden resultar relati-
vizados o ignorados por los crticos; el Post Rock, por ejemplo, es un termino
creado por Sim on Reynolds, resultando en una clasicaci on controvertida. Otro
ejemplo es la m usica de videojuegos, denida por su canal de difusi on, que
podra o no seg un el criterio que se utilice, denir un genero musical propio.
En las regiones andinas de Per u y Argentina es com un hablar del Fock Rock,
que es una combinaci on de los instrumentos folkl oricos al estilo rock.
Resistencia: La categorizaci on de la m usica, especialmente en generos muy es-
peccos o subgeneros, puede resultar difcil para los nuevos estilos emergentes
o para piezas musicales que incorporan caractersticas de m ultiples generos. Los
intentos por circunscribir grupos musicales a un genero determinado pueden
inducir a error, ya que es habitual que produzcan m usica en una variedad de
generos a lo largo de su trayectoria musical; incluso una misma pieza musical
puede estar compuesta por varios ritmos.
Algunas personas sienten que la categorizaci on de la m usica en generos se basa m as
en motivos comerciales y de mercado que en criterios musicales
Ventaja.- Resulta dicultoso trazarse un est andar de generos musicales. Pero sin em-
bargo categorizar la m usica por genero se hace necesario en una sociedad moderna
con alto grado de inuencia musical, para ello hay investigaciones importantes como
[TC02] que basandose en un estudio analtico de la se nal lograron obtener un arbol
jer arquico de clasicaci on (gura 2.9 ).
Captulo 2. FUNDAMENTOS DE LA M

USICA 23
Figura 2.9: Jerarqua de clasicacion de generos musicales [TC02].
Captulo 3
PROCESAMIENTO DIGITAL DE
SE

NALES DE AUDIO
3.1. Resumen
En este trabajo nos enfocamos a las se nales de audio en formato digital, por lo tanto
es necesaria la descripcion de conceptos b asicos del procesamiento de se nales digitales que
ser an utilizadas en las tecnicas de extracci on de caractersticas en el captulo siguiente.
En general el procesamiento digital de se nales (Digital Signal Processing, DSP) es un
area de la ingeniera que se dedica al analisis y dise no de se nales (audio, voz, imagenes o
video) en su forma discreta. Entonces el procesamiento digital de audio es un tipo de DSP
especializado en el tratamiento de la se nal de audio que involucra el estudio de algoritmos
y ciertas tecnicas involucradas, obteniendo una se nal que facilmente puede trabajarse en
un computador.
Las aplicaciones clasicas de procesamiento digital de audio trabajan sobre el mundo real,
tales como sonido y ondas de radio que se originan en forma an aloga; y como sabemos
las se nales anal ogicas son continuas en el tiempo, cambiando suavemente de un estado
a otro. Por otro lado las computadoras manejan informaci on discontinua, interpretada a
bajo nivel como una serie de n umeros binarios. Por lo que es necesaria una conversi on
de se nal analogica a digital, esta transformacion la hace el conversor An alogo - Digital
(ADC). Una se nal de audio puede ser adquirida (ADC) y ltrada para: eliminar en gran
medida ruido, crujidos de estatica, amplicar ciertas frecuencias de interes, eliminar otras,
etc. Luego de esto, la informaci on puede ser devuelta a traves de una Conversion Digital
- Analoga (DAC) (gura 3.1).
24
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 25
Figura 3.1: Paso de se nal Anal ogica a Digital y Digital a Anal ogica
3.2. Digitalizaci on de la Se nal
3.2.1. Se nal Digital
Las se nales en tiempo discreto son aquellas que se representan matematicamente como
una secuencia de n umeros. Adem as de estar denidas en tiempo discreto, la amplitud de
la se nal puede ser tambien discreta. Entonces las se nales digitales son aquellas que son
discretas tanto en el tiempo como en la amplitud [SV05].
Una de las se nales m as importantes es la sinusoidal:
X
0
[n] = A
0
cos(W
0
n +
0
) (3.1)
En donde:
A
0
= Amplitud
W
0
= Frecuencia angular

0
= Angulo de fase
3.2.2. Muestreo
El proceso a traves del cual una se nal continua x (t) es transformada en una se nal dis-
creta equivalente x (k) consiste simplemente en la toma de muestras de la se nal continua en
instantes de tiempo discretos k denominados instantes de muestreo k = {..., 1, 0, 1, 2, 3, ...}.
En el caso de una grabacion digital de audio, a mayor cantidad de muestras tomadas, ma-
yor calidad y delidad tendr a la se nal digital resultante.
El proceso de muestreo se muestra en la gura 3.2. Para realizar dicho proceso es nece-
saria una se nal adicional que marque el ritmo de la toma de muestras, idealmente dicha
se nal p (t) es un tren de impulsos con una frecuencia f
s
= 1/T
s
denominada frecuencia de
muestreo (en hertzios). El muestreo puede ser uniforme ( T
s
constante) o no uniforme (T
s
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 26
variable), a T
s
se le llama tambien periodo de muestreo [JR05].
Figura 3.2: El Proceso de muestreo [JR05].
El teorema de Nyquist garantiza que para poder reconstruir una se nal a partir de sus
muestras, se debe utilizar una frecuencia f
s
2f
N
, o sea al menos el doble de f
N
. Siendo
f
N
la componente de m as alta frecuencia de la se nal [SV05].
Las tasas o frecuencias de muestreo m as utilizadas para audio digital son las siguientes:
16 000 muestras por segundo (16 kHz).
22 050 muestras por segundo (22.05 kHz).
24 000 muestras por segundo (24 kHz).
30 000 muestras por segundo (30 kHz).
44 100 muestras por segundo (44.1 kHz) (Calidad de CD de audio).
48 000 muestras por segundo (48 kHz).
Los humanos pueden percibir espectros de frecuencias que varan aproximadamente
desde 20 Hz a 20 kHz. Por esto, las se nales de audio se muestrean generalmente a 44100
Hz, o sea m as del doble de la m axima frecuencia audible.

Este es el caso del CD de audio.
El contenido en frecuencia de las se nales de voz puede abarcar hasta 15 khz o m as, pero la
voz es altamente inteligible incluso con bandas de frecuencia limitadas a unos 4 kHz. Ese
es el caso de los sistemas telefonicos comerciales donde la frecuencia de muestreo est andar
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 27
utilizada para la voz es de 8 kHz [SV05].
Durante el proceso de muestreo se asignan valores numericos equivalentes a la tensi on o
voltaje existente en diferentes puntos de la onda sinusoidal, con la nalidad de realizar
despues proceso de cuantizacion.
3.2.3. Cuantizaci on
Despues del muestreo, el siguiente paso es la cuantizacion de la muestra de entrada
(gura 3.3). Para esta parte del proceso los valores continuos de la se nal sinusoidal se con-
vierten en series de valores numericos decimales discretos correspondientes a los diferentes
niveles o variaciones de voltajes que contiene la se nal analogica muestreada.
Figura 3.3: Representacion conceptual del proceso de la digitalizacion de la se nal anal ogica
La precisi on de los datos dependera del n umero de bits con que se codiquen los niveles
de cuantizacion [WS99]. Por tanto, se introduce un ruido de cuantizaci on que se asume
como ruido blanco (gura 3.4).
En el presente trabajo hemos considerado una frecuencia de muestreo de 22.05 khz, y
para el proceso de cuantizaci on una longitud de la palabra de 16 bits.
3.3. Representaci on en el dominio de Frecuencias
En la gura 3.5 se puede apreciar la se nal en el dominio del tiempo, esta representacion
es considerada como onda compleja para el momento del analisis de la se nal. Por ello es
necesario transformarla al dominio de las frecuencias. Los sistemas lineales e invariantes
en el tiempo cumplen ciertas propiedades que hacen factible esta representaci on.
Un graco del dominio temporal muestra la evoluci on de una se nal en el tiempo,
mientras que un graco frecuencial muestra las componentes de la se nal seg un la frecuencia
en la que oscilan dentro de un rango determinado. Una representacion frecuencial incluye
tambien la informacion sobre el desplazamiento de fase que debe ser aplicado a cada
frecuencia para poder recombinar las componentes frecuenciales y poder recuperar de
nuevo la se nal original.
El dominio de la frecuencia est a relacionado con las series de Fourier, las cuales per-
miten descomponer una se nal peri odica en un n umero nito o innito de frecuencias.
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 28
Figura 3.4: Etapas de digitalizacion: Se nal original (izquierda), Se nal muestreada con
amplitudes analogicas (derecha), Se nal digital (abajo) [WS99].
3.3.1. Transformada Discreta de Fourier
La Transformada Discreta de Fourier (Discrete Fourier Transform, DFT) permite un
an alisis mas sencillo y ecaz sobre la frecuencia, sobre todo en aplicaciones de eliminaci on
de ruido y en otros tipos de ltrado (ltros pasa bajos, ltros pasa altos, ltros pasa
banda, ltros de rechazo de banda, etc.).
Dada una se nal en tiempo discreto X (n) con N muestras, su transformada X (k)
est a dada por la siguiente f ormula:
X(k) =
N1

n=0
X(n)e
j2nk
N
, k = 0, 1, ..., N 1 (3.2)
Y la Transformada Inversa de Fourier esta dada por:
X(n) =
1
N
N1

k=0
X(k)e
j2nk
N
, n = 0, 1, ..., N 1 (3.3)
Considerando la equivalencia:
e
j
= cos() +j sin() (3.4)
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 29
Figura 3.5: Gr aca en el dominio del tiempo (izquierda) y su correspondiente en frecuen-
cias (derecha)
El costo de la implementaci on de la DFT es cuadr atico O(n
2
), por ello en la practica
se reduce utilizando la Transformada R apida de Fourier (Fast Fourier Transform, FFT).
3.3.2. Transformada Rapida de Fourier (FFT)
El algoritmo FFT consiste en simplicar enormemente el c alculo del DFT introdu-
ciendo estrategias matematicas, reduciendo la complejidad al orden O(nlog(n)).
Partimos de la f ormula:
X(k) =
N1

n=0
X(n)W
kn
N
, k = 0, 1, ..., N 1 (3.5)
D onde: W
kn
N
= e
j2nk
N
, es llamado factor mariposa.
Considerando las siguientes simetras:
W
n+N
N
= W
n
N
(3.6)
W
NK
N
= 1
W
2
N
= W
N/2
W
n+N/2
N
= W
n
N
Existen muchos algoritmos r apidos de Fourier, pero para nuestro caso implementa-
remos el algoritmo Radix -2 FFT- Decimacion en el Tiempo, basado en el paradigma
divida y conquista[CG00] ( algoritmo 1).
Elegimos el valor N de la forma N = 2
m
, dividimos la secuencia de datos de entrada
x(n) en dos grupos, uno de ndices pares y el otro de ndices impares. Se aplica a cada
grupo el DFT de N/2 puntos y se combinan sus resultados para formar el DFT de N
puntos.
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 30
Algoritmo 1 Radix-2 FFT
Entrada: x [0...N 1]
Salida: X [0...N 1]
Si N = 1 Entonces
Devolver x [0]
Fin Si
Si Mod (N) = 2 Entonces
Devolver N no es potencia de 2
Fin Si
Para k = 0 hasta N/2 1 Hacer
Pares [k] x [2 k]
Fin Para
Para k = 0 hasta N/2 1 Hacer
Impares [k] x [2 k + 1]
Fin Para
Y

0...
N
2
1

Radix-2 FFT(Pares)
Z

0...
N
2
1

Radix-2 FFT(Impares)
Para k = 0 hasta N/2 1 Hacer
ang 2 k /N
W
k
cos (ang) +j sin (ang)
X [k] = Y [k] +W
k
Z [k]
X [k +N/2] = Y [k] W
k
Z [k]
Fin Para
Devolver X [0...N 1]
Resolviendo:
X(k) =
N
2
1

n=0
x(2n)W
2nk
N
+
N
2
1

n=0
x(2n + 1)W
(2n+1)k
N
(3.7)
X (k) =
N
2
1

n=0
x (2n) W
2nk
N
+W
k
N
N
2
1

n=0
x (2n + 1) W
2nk
N
(3.8)
Sustituyendo las simetras en la ecuaci on 3.8:
x
1
= x(2n)
x
2
= x(2n + 1)
W
2nk
N
= W
nk
N
2
Tenemos:
X (k) =
N
2
1

n=0
x
1
W
nk
N
2
+W
k
N
N
2
1

n=0
x
2
W
nk
N
2
(3.9)
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 31
X (k) = Y (k) +W
k
N
Z (k) , k = 0, 1, ..., N 1 (3.10)
Esta ultima ecuaci on muestra que el DFT de N puntos es la suma de dos DFTs de N/2
puntos: Y (k) y Z (k), realizadas con los grupos par e impar de la se nal original x (N).
Cada termino de Z (k) es multiplicado por un factor mariposa W
k
N
. (gura 3.6)
Figura 3.6: Esquema para una se nal de N=8 puntos [wikipedia].
Dado la simetra: W
k+N/2
N
= W
k
N
y debido a la propiedad de periodicidad de Y (k)
y Z (k) (periodo N/2) podemos decir que:
X (k) = Y (k) +W
k
N
Z (k) (3.11)
X

k +
N
2

= Y (k) W
k
N
Z (k)
k = 0, 1, ..., N/2 1
3.3.3. Enventanado
A partir de la transformada discreta de Fourier, se realiza un an alisis del contenido en
frecuencia de las se nales. Pero en la pr actica, para aplicaciones de audio, las propiedades
de la se nal no son estacionarias y una sola DFT no es suciente para describir el compor-
tamiento de esas se nales. La transformada de Fourier en tiempo corto (STFT) soluciona
este problema calculando la DFT a intervalos de la se nal. Este proceso se llama enven-
tanado [SV05]. El ventaneamiento consiste en aplicar sobre un bloque de la se nal x
N
(n)
una ventana w(n). Se aplica el solapamiento entre ventanas para mantener la continuidad
de informacion de la se nal (gura 3.7).
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 32
Figura 3.7: Solapamiento de ventanas
Cuanto mas r apidamente cambien las caractersticas de la se nal, m as corta deber a ser
la ventana para poder detectar esos cambios en el tiempo. Por otra parte, a medida que
decrece la longitud de la ventana, se reduce la resolucion frecuencial, es decir, la capacidad
de distinguir componentes cercanas en frecuencia. Adem as de la longitud se debe elegir
la forma de la ventana, o mas especcamente, el tipo de suavizado que se requiere en
los extremos de la misma [VW99]. En la tabla 3.1 se muestran tipos de ventanas m as
utilizadas, asimismo su representacion graca en la gura 3.8:
Ventana Formula
Rectangular w(n) =

1, 0 n < N
0, en otro caso
Hanning w(n) =

0,5 + 0,5 cos

2n
N

, 0 n < N
0, en otro caso
Hamming w(n) =

0,54 + 0,46 cos

2n
N

, 0 n < N
0, en otro caso
Bartlett w(n) =

2n
N
, 0 < n <
N
2
2
2n
N
,
N
2
< n < N
Cuadro 3.1: Tipos de Ventanas
Cada ventana tiene sus distintas propiedades y ser a ventajosa seg un la aplicaci on que
se trabaje, en la gura 3.9 se hace un an alisis del espectro de cada ventana en el dominio
de las frecuencias aplicando la FFT normalizada.
La ventana utilizada para nuestro caso es la ventana Hamming, ya que esta suaviza
la se nal en los extremos produciendo un menor derramamiento espectral en comparaci on
a las otras ventanas.
En la gura 3.10 vemos un ejemplo de aplicacion de la ventana Haming a una se nal.
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 33
3.3.4. Transformada Discreta del Coseno
A diferencia de la transformada de Fourier que utiliza senos y cosenos, la Transfor-
mada Discreta de Coseno (DTC) convierte a la se nales en componentes del coseno trigo-
nometrico, y la representacion de una se nal real mediante esta transformada, es tambien
real [VW99].
La Transformada discreta del coseno expresa una secuencia nita de varios puntos como
resultado de la suma de distintas se nales sinusoidales (con distintas frecuencias y ampli-
tudes).
Formalmente la transformada de coseno discreta es una funci on lineal e invertible del do-
minio real R
N
R
N
. Que tambien se puede entender de forma equivalente a una matriz
de N N posiciones.
Existen ocho variantes de la transformada, pero las m as usadas son la DCT-I (ecuacion
3.12) y la DCT-II (ecuacion 3.13):
X (k) =
1
2

x
0
+ (1)
k
x
N1

+
N2

n=1
x
n
cos


N 1
nk

, k = 0, ..., N 1 (3.12)
X (k) =
N1

n=0
x
n
cos

n +
1
2

, k = 0, ..., N 1 (3.13)
Existen modicaciones de la transformada para reducir la complejidad de procesamiento,
pero no es nuestro caso de estudio por lo que no van hacer necesarias implementarlas en
el proyecto. En la gura 3.11 se muestra las 4 maneras de representaci on de la DTC en 4
puntos.
3.3.5. Filtrado de la Se nal
Los ltros son una clase de sistemas lineales e invariantes con el tiempo particularmente
importante. Estrictamente hablando, el ltro selectivo en frecuencia sugiere un sistema
que deje pasar ciertas componentes de frecuencia y rechazar completamente otras. Pero en
un sentido m as amplio, cualquier sistema que modique ciertas frecuencias con respecto
a otras, tambien se denomina ltro [VW99].
De acuerdo con la parte del espectro que dejan pasar y que aten uan hay tres tipos de
ltros: Filtros paso alto, paso bajo y paso banda 3.12.
1. Filtro paso alto: aten uan las componentes de baja frecuencia pero no las de alta
frecuencia.
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 34
2. Filtro paso bajo: permitir el paso de las frecuencias m as bajas y atenuar las
frecuencias mas altas.
3. Filtro paso banda: deja pasar un determinado rango de frecuencias de una se nal
y aten ua el paso del resto.
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 35
Figura 3.8: Representacion gr aca de los tipos de Ventanas [wikipedia].
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 36
Figura 3.9: Espectro de las distintas ventanas [SV05]
Figura 3.10: Izquierda, la ventana Haming (azul) y la se nal original (rojo). Derecha, la
se nal resultante de la multiplicaci on [SV05]
Figura 3.11: Representacion de la DTC- I (a), DTC-II (b), DTC-III (c) y DTC-IV (d)
respectivamente [HAH01].
Captulo 3. PROCESAMIENTO DIGITAL DE SE

NALES DE AUDIO 37
Figura 3.12: Tipos de ltros [VW99]
Captulo 4
T

ECNICAS DE EXTRACCI

ON DE
CARACTER

ISTICAS
4.1. Resumen
Para lograr buenos resultados en la clasicaci on del audio es muy prioritario extraer
las caractersticas m as representativas de la se nal de audio, ya que de estos dependen los
optimos resultados en el c alculo del modelo de entrenamiento.
Es muy complicado determinar que caractersticas particulares nos servir an para distin-
guir los diferentes tipos de generos musicales; y m as aun considerando que los archivos
musicales contienen bastante informacion digital para procesar. De all que muchas in-
vestigaciones utilizan tecnicas como segmentaci on, compactacion y resumen de audio, lo
cual no es objetivo de estudio en nuestra investigaci on, pero sin embargo adecuaremos el
concepto de descriptores de audio a un muestreo extrado de la se nal en el dominio de las
frecuencias.
Estas tecnicas son estudiadas dentro del area de Reconocimiento de Patrones y en la ac-
tualidad existen muchas tecnicas de extraccion de caractersticas en audio, pero para nes
de este trabajo consideraremos 3 tecnicas que han demostrado obtener mejores resultados
de caracterizacion musical en la literatura estudiada: MFCC, las Caracterstica Especiales
en Tramas de Tiempo y el calculo del pitch.
4.2. Mel Frecuency Cepstral Coecients (MFCC)
Esta tecnica fue originalmente utilizada para el reconocimiento de voz, pero dado
a sus resultados signicativos en el an alisis tmbrica, tambien es utilizado dentro de la
clasicaci on de audio.
El MFCC Se basa en la extracci on de caractersticas perceptuales del audio, es decir
38
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 39
caractersticas que tengan en cuenta los aspectos m as humanos de la percepcion auditiva.
4.2.1. Cepstrum
Los coecientes cepstrales se obtienen del analisis del Cepstrum real. El Cepstrum es
la trasformaci on que nos va permitir separar la fuente de la excitaci on del ltro (glotis).
La excitaci on e (k) representa a la frecuencia fundamental que se produce en las cuerdas
vocales y el ltro h(k) representa las resonancia del tracto vocal producida por la variancia
en el diametro de la laringe, la posici on de la lengua, la mandbula, los dientes y los labios
(gura 4.1).
Figura 4.1: Representaci on del tracto vocal h(n) como un ltro lineal variable en el tiempo
Entonces la convulaci on est a dada por:
x (k) = e (k) h(k) (4.1)
Aplicando la Transformada de Fourier obtenemos:
X (k) = E (k) H (k) (4.2)
Esto debido a que la convulaci on de dos secuencias en el tiempo, implica su producto
en frecuencias [SV05].
Tomando el m odulo de X (k) al cuadrado obtenemos la DEP:
DEP (k) = |X (k)|
2
= |E (k)|
2
|H (k)|
2
(4.3)
Ahora el Cepstrum se dene como la Transformada Inversa de Fourier (IFT) del
logaritmo de la DEP:
C (k) = IFT (log (DEP)) (4.4)
Reemplazando DEP:
C (k) = IFT

log

|E (k)|
2
|H (k)|
2

= IFT (2 log (|E (k)|)) +IFT (2 log (|H (k)|))


(4.5)
Este resultado conrma que el cepstrum de una se nal esta dado por la suma del cepstrum
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 40
de la excitaci on y el de la transferencia del tracto vocal.
Para calcular los coecientes cepstrales de frecuencia Mel se aplica una variante: El Lo-
garitmo no se aplica directamente al DEP sino a los coecientes Mel (CVM), tambien se
utiliza la Transformada Discreta de Coseno (DCT) en lugar de IFT. La aplicacion de la
DCT enfatiza los coecientes cepstrales bajos:
C (k) = DCT (log (CV M)) (4.6)
Entendiendo esto procedemos a calcular los coecientes MFCC.
4.2.2. Calculo de los Coecientes Mel
Nos basaremos en el estandar ETSI ES 201 108 [ETSI00]. Para representar la voz se
suele utilizar 13 coecientes cepstrales y 1 coeciente del logaritmo de la energa, aunque
se ha demostrado que para el proceso de clasicacion de audio es suciente los 5 primeros
[TC02], nosotros decidimos trabajar con los 13 descriptores. Los pasos para calcular los
coecientes mel se aprecian en la gura 4.2:
Figura 4.2: Diagrama de bloques del algoritmo de front-end seg un el estandar ETSI ES
201 108 [ETSI00]
1. Compensacion del Oset
Se aplica este ltro para eliminar la componente DC de la se nal muestreada de la
anal ogica a digital X
m
.
X
CO
= X
m
(k) X
m
(k 1) + 0,999 X
CO
(K 1) (4.7)
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 41
2. Entramado (Frame)
Para considerar la se nal estacionaria, es necesaria procesarla en tramas de corta
duraci on. Para nuestro ejemplo hemos tomado un periodo de trama de 32 ms. Con
una solapamiento de 10 ms.
Para hallar el tama no del bloque correspondiente a esta trama, se obtiene en pro-
porcion a la maxima frecuencia. En nuestro caso para f
s
= 16000Hz obtendremos
una trama de tama no 512.
1s f
s
32ms N

N =
32ms f
s
1s
N =
32ms 16000hz
1000ms
= 512hz
A partir de aqu los siguientes pasos seran aplicado para cada trama.
En este trabajo utilizamos f
s
= 22050Hz y una ventana de 23 ms, originando una
trama de tama no 507, as que tuvimos que dimensionar a 512 completando con
ceros.
3. Filtro Pre-enfasis
Es un tipo de ltro paso alto, para que el espectro de la se nal tenga un aspecto mas
plano, dado que la se nal tiene un contenido m as signicativo en bajas frecuencias.
X
pe
(k) = X
CO
(k) 0,97 X
CO
(k 1) (4.8)
4. Ventana Hamming
En el captulo 2 se haba hecho el an alisis de las diferentes tipos de ventanas, esco-
giendo as la ventana de Haming para nuestra implementaci on ya que producen un
menor derramamiento espectral en la se nal resultante de la convulacion.
Formula de la ventana haming:
Hm(n) = 0,54 0,46 cos

2n
N

(4.9)
Aplicando 4.9 a la trama, obtenemos:
X
hm
(k) = Hm(k) X
pe
(k) , k = 0, 1, ..., N 1 (4.10)
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 42
5. Transformada Rapida de Fourier
La transformada de fourier al ser aplicado a solo una trama de la se nal toma el
nombre de Transformada de Fourier a Corto Plazo (STFT). Para el algoritmo que
aplicamos es necesario que el tama no de la trama (N) sea potencia de 2, sino lo es,
completar con ceros el vector hasta hacer coincidir su tama no en potencia de 2.
En nuestro caso la trama es de 23 ms lo que equivale a un bloque de 512 muestras.
X
ft
(k) =
N1

n=0
X
hm
(n) W
kn
N
, k = 0, 1, ..., N 1 (4.11)
6. Densidad Espectral de la Potencia (DEP)
El resultado de la transformada r apida de fourier son valores complejos y para
trabajarlos como reales es necesario calcular el modulo, obteniendo la DEP:
X
DEP
(k) = |X
ft
(k)|
2
(4.12)
Recordando que el m odulo de un n umero complejo es:
|a +jb| =

a
2
+b
2
(4.13)
Debido que la transformada retorna valores conjugados, hace que la se nal sea simetri-
ca, como se puede apreciar en la gura 3.5 . Por ello para cuestiones de simplicaci on
solo se trabaja con la mitad de la trama
7. Coecientes Mel (CVM)
Para hallar una aproximaci on del comportamiento de la percepcion del odo humano,
utilizamos la escala MEL (gura 4.3). Se forman tri angulos linealmente espaciales
en la escala Mel y sus correspondientes en Hertz. A estos tri angulos se le denomina
Bancos de Filtro Mel o simplemente Bins, que adem as est an solapados, es decir
las bases de cada tri angulo est a comprendida entre los frecuencias centrales de sus
tri angulos adyacentes [SV05].
En este ejemplo consideraremos 5 Bins y la escala en Hertz de 8000 (m axima fre-
cuencia en 16khz).
Para hallar la frecuencia en Hertz expresada en Mels, utilizamos la siguiente apro-
ximaci on:
Mel (f) = 2595 log
10

1 +
f
700

(4.14)
Y Para hallar la frecuencia en Mels expresada en Herts, aplicamos la inversa de la
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 43
Figura 4.3: Escala Mel con 5 Bins
formula anterior:
Mel
1
(m) = 700

10
m
2595
1

(4.15)
Para formar los valores de cada ltro triangular, se aplica la siguiente f ormula:
H
m
(k) =

0 , si k < f (m1)
k f (m1)
f (m) f (m1)
, si f (m1) k f (m)
f (m+ 1) k
f (m+ 1) f (m)
, si f (m) k f (m+ 1)
0 , si k > f (m+ 1)
(4.16)
En la gura 4.4 representamos gracamente la ecuacion parametrica 4.16 del ltro
triangular.
Figura 4.4: Filtro triangular con altura 1
Una observaci on importante a esta f ormula, es que genera triangulos en la escala de
0 a Fs/2 (Fs: frecuencia de muestreo). Mientras que el tama no de la trama es de 256.
Por lo tanto antes de calcular los valores del tri angulo debemos escalar f (m1),
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 44
f (m) y f (m+ 1) al tama no de la trama, seg un la ecuacion 4.17:
Suponiendo que Fs es 16 KHz, entonces Fs/2 = 8000 Hz.
256 8000
f

(m) f (m)

(m) =
f (m) 256
8000
El resultado que se obtiene seria K Bins:
Bin(k) =
|H
m
|

i
H
m
(k, i) X
DEP

(k) +i

, k = 0, ..., K 1 (4.17)
8. Transformada no Lineal (Logaritmo)
Antes de aplicar la DTC debemos calcular el logaritmo neperiano de cada Bin:
Y (k) = ln (Bin(k)) (4.18)
9. Transformada Discreta del Coseno II (DTC II)
Y como se haba visto en la formula del Cepstrum, debemos aplicar la DTC a los
CVM:
Y
DTC
(k) =
N

i1
Y (k) cos

k
N
(i 0,5)

en donde N = 5 (4.19)
4.3. Caractersticas en Tramas de Tiempo Especiali-
zadas
Los par ametros utilizados en las fuentes consultadas como ya habamos mencionado
son clasicados en 3 tipos: par ametros relacionados al timbre, al ritmo y al pitch de la
se nal. Los descriptores usados para representar la textura tmbrica son usados mayormente
en la discriminaci on voz/m usica, pero tambien han demostrado muy buenos resultados
en clasicacion por genero musical [TC02].
Considerando que: N = longitud de la trama y X
ft
= Transformada de Fourier aplicada
a la trama respectiva.
1. Spectral Centroid
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 45
Es denido como el centro de la gravedad del espectro de la magnitud, es decir
la frecuencia que divide el espectro en dos proporciones iguales. Este par ametro
est a relacionado con la Brillantes del Sonido, por ello un constituyente importante
de la percepci on del timbre.
X
SCent
=

N
k=1
X
ft
(k) k

N
k=1
X
ft
(k)
(4.20)
2. Spectral Rollo
Se dene como la frecuencia por debajo de la cual se concentra el PR% de la
magnitud del espectro. Se considera un valor tpico de PR = 0,85. Este par ametro
nos da una idea de la forma del espectro:
X
SRoll

k=1
|X
ft
(k)| = PR
N

k=1
|X
ft
(k)| (4.21)
3. Spectral Flux
Se dene como el cuadrado de la diferencia entre las magnitudes del espectro de dos
tramas consecutivas. Se trata de una medida de la cantidad de cambios locales:
X
SFlux
=
N

k=1
(X
ft
(k) X
ft1
(k))
2
(4.22)
X
ft1
(k) es la FFT de la trama anterior.
4. STE(Short-TimeEnergy)
C alculo de la medida de la energa, que corresponde a la potencia cuadratica de la
se nal temporal:
X
STE
=
1
N
N

k=1
X
CO
(k)
2
(4.23)
X
CO
es la Compensaci on del Oset a la se nal (visto en el c alculo del MFCC).
5. LGSTE - Medida de la Energia
Es el logaritmo (en base 10 o e) de STE:
X
LGSTE
= log (X
STE
N) (4.24)
6. ZCR (Zero CrossingRate)
Se dene como la tasa de cruces por Cero. Este par ametro nos da la idea de que tan
ruidosa es la se nal. Aunque de manera estricta no es un par ametro relacionado con
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 46
el timbre, sino con el tiempo. Este par ametro es de gran interes para el problema
de la discriminacion de voz/m usica.
X
ZCR
=
1
2
N

k=1
|sign(x (k)) sign(x (k 1))| (4.25)
x (k) es la se nal temporal, en el dominio del tiempo.
4.4. Calculo del Pitch
La determinacion del periodo de pitch o tambien denominado frecuencia fundamental
es de importancia en el procesamiento de se nales de voz debido a que es utilizada para
realizar tareas de sntesis de habla, reconocimiento automatico de habla, reconocimiento
de lenguajes tonales, vericaci on del locutor, entre otras [SLEH06].
El pitch de un sonido simple (el cual contiene una unica componente en frecuencias),
es una variable que nos indica si el sonido es alto o bajo, por ello nos indicara la locali-
zaci on del sonido dentro de una escala musical. Para el calculo del valor del perodo de
pitch en una se nal de habla se han desarrollado gran cantidad de algoritmos los cuales
se basan principalmente en tres metodologas: metodo de correlaci on (dominio temporal),
metodo HPS - Harmonic Product Spectrum (dominio frecuencial) y usando la transfor-
mada wavelet (dominio conjunto).
El algoritmo que emplearemos se basa en el metodo de correlaci on que trabaja en el
dominio del tiempo. Especcamente el algoritmo que proponemos se basa en el propuesto
por [DRR67] y [DB96] para la determinaci on del pitch. Las caractersticas referentes a la
obtenci on del Pitch son:
En una onda ac ustica, los picos m aximos de una determinada localidad son llamados
picos maximos signicativos o maximos locales y tienen una amplitud mayor o igual
que el 90 % de un maximo signicativo de una localidad aleda na..
Los mnimos signicativos de una onda representan los picos mnimos de una onda
y se localiza dentro de 2.5ms de la localidad de un m aximo signicativo.
No existen pitch relevantes menores a 2ms o mayores a 14ms.
Lo periodos entre pitch son bastantes similares, por lo que son considerados como
un rango de b usqueda.
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 47
4.4.1. Esquema del Algoritmo
A continuacion se presentara el algoritmo 2 en el que se muestran los pasos para seguir
para la determinacion del periodo de pitch:
Es recomendable que el vector de audio que ingresa como parametro del algoritmo haya
sido previamente procesado por un algoritmo de Eliminaci on De Segmentos In utiles, para
trabajar solamente sobre la se nal con informaci on relevante, este algoritmo se implementa
al momento de digitalizar la se nal eliminando los silencios y el ruido.
Algoritmo 2 Determinaci on del Pitch
Entrada: V S: vector de la se nal de habla sin segmentos in utiles
V filtro: vector de ltro de medias
Salida: ppitch: valor que indica la frecuencia fundamental
1: maxsenial getIndexMaxPico(V S)
2: Xp cubeClip(V S)
3: umbral 0,4 Xp[maxsenial]
4: Xc tClip(Xp, umbral)
5: Xsuave convolucionar(Xc, V filtro)
6: Xmlo getMaximosLocales(Xsuave)
7: Xdist getDistMaximos(Xmlo)
8: media getMedia(Xdist)
9: desv getDesviacionEstandar(Xdist, media)
10: Xcheck checkDist(Xdist, media, desv)
11: Xrecheck reCheckDist(Xdist, Xcheck, media)
12: ppitch getMedia(Xrecheck)
13: Devolver ppitch
En el paso 1 obtenemos con la funcion getIndexMaxPico() el ndice del pico m as
alto del vector V S que le enviamos como par ametro de dicha funci on.
En el paso 2 enviamos al vector V S como parametro de la funci on cubeClip(), la
misma que tomar a cada elemento de dicho vector, lo duplicar a y a ese resultado lo
elevara al cubo, devolviendo un nuevo vector Xp almacenando los nuevos valores
del resultado de este computo.
En el paso 3 obtenemos el umbral que es el valor del producto de la constante 0,4
por el valor del pico mas alto del vector Xp obtenido en el paso 2.
En el paso 4 enviamos Xp y umbral como par ametros de la funcion tClip() la cual
se encargara de eliminar aquellos elementos de Xp cuyo valor absoluto sea menor o
igual que el valor de umbral, en caso contrario almacenar a en un nuevo vector Xc
el resultado de la diferencia entre el valor absoluto de dicho elemento y umbral.
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 48
Estos 4 primeros pasos son llevados a cabo con el objetivo de eliminar aquellas
se nales de la onda que esten por debajo de un umbral, el cual en este caso es
considerado como debajo de la mitad del pico m as alto de toda la onda.
En el paso 5 debemos de suavizar el vector Xc obtenido en el paso 4, convolu-
cion andolo mediante un vector de ltro de suavizado de media y almacenando el
resultado en el vector Xsuave. El vector de ltro de media que se uso es de longitud
7 y mantiene los elementos: 0.05, 0.1, 0.2, 0.3, 0.2, 0.1, 0.05 en el respectivo orden
en el que se presentan seg un la propuesta en [DB96] .
Lo siguiente es encontrar los m aximos locales, los cuales seg un [DRR67] deben cum-
plir con la caracterstica de tener una amplitud mayor o igual que el 90 % de un
m aximo signicativo de una localidad aleda na, esto lo realizamos en el paso 6 me-
diante la funcion getMaximosLocales() la cual recibe como par ametro de entrada
el vector suavizado Xsuave y devuelve el vector Xmlo conteniendo los maximos
locales.
Ahora necesitamos saber que tan cercanos se encuentran los m aximos locales que
son vecinos, por eso, el siguiente paso es calcular la distancia entre cada par sucesivo
de los m aximos locales enviando en el paso 7 al vector Xmlo como parametro de
entrada de la funci on getDistMaximos() la cual almacenar a en el vector Xdist la
diferencia entre los elementos Xmlo[i + 1] y Xmlo[i].
Lo siguiente es conocer aquellos m aximos locales que son vecinos, para esto lo que
debemos hacer es eliminar las se nales cuyo valor absoluto de la diferencia entre los
elementos del vector Xdist y la media de dicho vector sea mayor que su desviacion
est andar (con la funci on checkDist() del paso 10). Es por eso que en los pasos 8 y
9 calculamos respectivamente la media del vector Xdist y su desviaci on estandar.
Nuevamente debemos recalcular las distancias entre los picos maximos locales de
la onda con respecto a aquellos que han sido eliminados en los pasos anteriores.
En el paso 11, la funcion reCheckDist() devuelve el vector Xrecheck que en cada
elemento mantiene la nueva distancia entre los verdaderos m aximos locales (Ver
algoritmo 3). Luego calculamos el periodo de pitch en el paso 12 para nalmente
devolver el resultado en el paso 13.
Es recomendable que el vector de audio que ingresa como parametro del algoritmo haya
sido previamente procesado por un algoritmo de Eliminaci on de Segmentos In utiles, para
trabajar solamente sobre la se nal con informaci on relevante, este algoritmo se implementa
al momento de digitalizar la se nal eliminando los silencios y el ruido.
Captulo 4. T

ECNICAS DE EXTRACCI

ON DE CARACTER

ISTICAS 49
Algoritmo 3 recheckDist
Entrada: Xdist: vector de distancias entre m aximos locales
Xcheck: vector que mantiene los ndices de los maximos locales que son vecinos
media: media del vector Xdist
Salida: Xrecheck : vector que almacena las distancias entre los m aximos picos
1: Para i = 0 hasta length(Xcheck) 1 Hacer
2: Si Xcheck [i] = 0 Y Xdist [i] < media Entonces
3: dist [i + 1] dist [i] +dist [i + 1]
4: Si No
5: Si Xcheck [i] = 0 Entonces
6: Si (0,5 dist [i]) > 0 Entonces
7: Xrecheck[j] (0,5 dist[i])
8: j j + 1
9: Fin Si
10: Si No
11: Si dist[i] > 0 Entonces
12: Xrecheck[j] dist[i]
13: j j + 1
14: Fin Si
15: Fin Si
16: Fin Si
17: Fin Para
18: Devolver Xrecheck
4.5. Vector Descriptor
Despues de procesar las tramas cortas de tiempo, se obtiene un conjunto de vectores
de caractersticas denominados: Vectores Descriptores. Cada vector es de la forma P
n
de
dimensi on 20: 13 descriptores del MFCC, 6 de tramas de tiempo y uno del pitch.
Ahora es necesario mapear todos estos descriptores a un solo vector de mayor dimensi on,
que describa el patr on caracterstico del archivo previo a la clasicaci on, en el captulo 6
estudiaremos la tecnica empleada para este n.
Captulo 5
CLASIFICACI

ON CON
MAQUINAS DE SOPORTE
VECTORIAL
5.1. Resumen
La teora de las M aquinas de Soporte Vectorial (SVM) se centra en lo que se conoce co-
mo Teora del Aprendizaje Estadstico. Consiste en buscar, para una tarea de aprendizaje
dada con una cantidad nita de datos, una adecuada funci on que permita llevar a cabo
una buena generalizaci on que sea resultado de una adecuada relaci on entre la precision
alcanzada con un particular conjunto de entrenamiento y la capacidad del modelo.
5.2. Denici on
Cristianini y Shawe-Taylor denen a las SVM como un sistema de aprendizaje que
usa un espacio de hip otesis de funciones lineales en un espacio de caractersticas alto-
dimensional, entrenado con unos algoritmos de aprendizaje tomado de la teora de la
optimizaci on que implementa un sesgo de aprendizaje derivado de la teora del aprendi-
zaje estadstico [GA05].
Vapnik y sus colaboradores en AT&T fueron los que delinearon el fundamento de
las m aquinas de soporte y los correspondientes metodos SV, los cuales estan acarreando
popularidad debido a sus muchas caractersticas atractivas y el promisorio desempe no
emprico. Su formulaci on incorpora el principio de Minimizacion del Riesgo Estructural
(SRM) [VV95], el cual se ha demostrado que es superior al mas tradicional principio de
minimizaci on del riesgo emprico (ERM) empleado por muchas tecnicas de modelaci on
50
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 51


(Osuna, et al, 1997, Gunn, 1998). Esta es la diferencia que proporciona a las SVM una
habilidad mayor para generalizar, la cual es la meta en aprendizaje estadstico.
La maquina de vectores de soporte emplea la siguiente metodologa:
Mapear los puntos del espacio de entrada a un espacio caracterstico de mayor
dimensi on.
Construir un hiperplano que separe los puntos en sus clases respectivas.
Clasicar un punto nuevo de acuerdo a su ubicaci on con respecto al hiperplano de
separaci on.
Las SVM transforman, el espacio de entradas en un espacio caracterstico de dimensi on
superior y entonces construye la funci on de clasicaci on lineal optima dentro de este nuevo
espacio.
En la gura 5.1 se muestra un resumen del esquema formal de esta metodologa.
Figura 5.1: Esquema de aplicaci on de las SVM [GA05].
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 52


5.3. Clasicaci on para datos linealmente separables
Este es el caso mas b asico de clasicaci on, en el que hay que decidir entre dos clases
diferenciables, en el sentido de que se pueden separar mediante un hiperplano. Tambien
se le conoce como clasicacion binaria con datos linealmente separables, y consiste en:
Dado un conjunto de vectores de entrenamiento {(X
1
, Y
1
) , ..., (X
n
, Y
n
)} donde X
1

d
,
etiquetados en dos clases en Y tal que y
i
{1, 1}.
Adem as un hiperplano que divide los vectores en dos clases, aquellos con etiqueta y
i
= 1
y los de etiqueta y
i
= 1, descrito como:
w x +b = 0 (5.1)
Donde w es un Vector Normal al plano (Ver gura 5.2) Teniendo el hiperplano, podemos
Figura 5.2: Muestra del hiperplano que dos clases linealmente separables
reescalar w y b de manera que:
w x +b +1, para y
i
= +1 (5.2)
w x +b 1, para y
i
= 1 (5.3)
De 5.2 y 5.3 se pueden expresar en una sola ecuacion:
y
i
(x
i
w +b) 1 0 i (5.4)
De esta manera la mnima distancia entre los vectores y el Hiperplano es la unidad.
Cabe se nalar que H1 y H2 son hiperplanos paralelos y no contienen vectores entre ellos,
la separacion entre ellos es de
2
w
donde w es la norma euclidea de w.
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 53


Estos vectores que satisfacen las restricciones en 5.2 y 5.3, es decir que est an en el borde
de los hiperplanos, se conocen como vectores de soporte (SV) de la m aquina.
Para distinguir una forma m as clara las regiones en donde caen los puntos con distintas
etiquetas, es necesario hallar la m axima separacion entre los hiperplanos H1 y H2, plan-
teamos la siguiente expresi on:
mn
wR
d
1
2
w
2
(5.5)
s.a. y
i
(x
i
w +b) 1 0 i
Este problema de optimizaci on con restricci on 5.5 se resuelve con los multiplicadores de
Lagrange. La funcion objetivo queda de la forma:
L
p
(w, b,
i
) =
1
2
w
2

i=1

i
(y
i
(x
i
w +b) 1) (5.6)
Dada sus propiedades de convexidad, tanto en la funci on objetivo y en los vectores que
satisfacen la restricci on, se puede resolver el problema dual asociado al problema primal,
expres andose de la siguiente forma:
Considerando:
w =
n

i=1

i
y
i
x
i
y
n

i=1

i
y
i
= 0 (5.7)
Obtenemos:
L
p
() =
n

i=1

1
2
n

i,j=1

j
y
i
y
j
x
i
x
j
(5.8)
En donde los vectores de soporte (SV) son aquellos que proporcionen un multiplicador

i
> 0.
5.4. Clasicaci on para datos linealmente no separa-
bles
El caso b asico nos da un panorama de clasicacion para datos separables, pero en
la practica no es habitual estos casos, lo normal es que tengamos conjuntos de datos no
separables, as como se muestra en la gura 5.3.
Ampliamos la idea general del caso separable al no separable introduciendo una variable
de holgura , entonces nuestras restricciones quedan de la forma:
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 54


Figura 5.3: Muestra del hiperplano que dos clases linealmente no separables
x
i
w +b +1
i
, para y
i
= +1 (5.9)
x
i
w +b 1 +
i
, para y
i
= 1 (5.10)

i
0 i = 1, ..., n (5.11)
Como en este caso necesariamente se han de cometer errores, entonces asignamos a la
funci on objetivo un coste extra que en cierto modo penalice los errores: C

n
i=1

i
, plan-
teando el problema de optimizaci on de la siguiente manera:
mn
wR
d
1
2
w
2
+C
n

i=1

i
(5.12)
s.a.

y
i
(x
i
w +b) 1 +
i
0 i

i
0 i
Si consideramos un valor de C grande, signica que estamos asignando un peso a los
errores muy alto frente a w
2
y si por el contrario C es peque no se asigna un mayor peso
a w
2
.
La funcion dual queda expresada as:
L
p
() =
n

i=1

1
2
n

i,j=1

j
y
i
y
j
x
i
x
j
(5.13)
s.a.
n

i=1

i
y
i
= 0 y 0
i
C, i
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 55


5.5. Clasicaci on para datos no lineales
Que pasara si nuestros datos de entrenamiento no pueden separarse linealmente?,
para estos casos Vapnik [GA05] presenta una solucion al problema mapeando el espacio de
entradas a un espacio caracterstico con mayor dimension, tal que permita la separabilidad
lineal de los datos. Ahora debemos generalizar los desarrollos anteriores para este complejo
caso (Ver gura 5.4). Sea una aplicaci on del conjunto de entradas X, en un espacio
Figura 5.4: Mapeo a un espacio caracterstico para datos no linealmente separables
caracterstico H dotado de un producto escalar.
: X
d
H (5.14)
Entonces los vectores transformados queda expresado por el siguiente conjunto {(x
i
) , ..., (x
n
)}.
Pero surge otro problema: la dimensi on del espacio caracterstico puede ser muy alta y se
hace difcil construir un hiperplano de separaci on en ese espacio. La solucion es sencilla,
debido a que el mapeo H = (x
i
) no necesita ser explcito, entonces podemos reemplazar
x (i) por (x
i
):
L
p
() =
n

i=1

1
2
n

i,j=1

j
y
i
y
j
(x
i
) (x
j
) (5.15)
s.a.
n

i=1

i
y
i
= 0 y 0
i
C, i
Como no tenemos conocimiento de , el c alculo del problema se hace imposible. Para
ello utilizamos las funciones denominadas Kernels, que calculan el producto punto de los
vectores de entrada en el espacio de caractersticas H. La funcion simetrica Kernel se
representa por K tal que K (x
i
, x
j
) = (x
i
) (x
j
), de modo que el algoritmo de entre-
namiento dependa solo de K y el mapeo de no sea usado explcitamente.
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 56


Resumiendo entonces la funci on solucion queda de la siguiente forma:
L
p
() =
n

i=1

1
2
n

i,j=1

j
y
i
y
j
K (x
i
, x
j
) (5.16)
s.a.
n

i=1

i
y
i
= 0 y 0
i
C, i
Y la funci on de decisi on:
f (x) = sign

i=1

i
y
i
K (x
i
, x
j
) +b

(5.17)
Funciones Kernel comunes:
Lineal
K (x
i
, x
j
) = x
i
x
j
(5.18)
Polinomica
K (x
i
, x
j
) = (x
i
x
j
+c)
d
, para c > 0 (5.19)
Sigmoide o Tangente Hiperbolica
K (x
i
, x
j
) = tanh (x
i
x
j
+c) , para c > 0 (5.20)
Funcion de base radial gaussiana (RBF)
K (x
i
, x
j
) = exp

x
i
x
j

, para > 0 (5.21)


5.6. Clasicaci on m ultiple
Ahora generalizaremos el caso anterior para n clases. Dentro de los esquemas de des-
composici on m as utilizados tenemos:
M aquinas 1-v-r (one-versus-rest):
Se entrenan n clasicadores (una clase es la positiva y el resto la negativa).
Se predice la clase para todos los clasicadores.
Captulo 5. CLASIFICACI

ON CON MAQUINAS DE SOPORTE VECTORIAL 57


La clase asignada es aquella con la que se consigui o mayor margen (en el caso
en que se clasique como positiva en m as de un clasicador).
M aquinas 1-v-1 (one-versus-one):
Se construye n(n 1) /2 clasicadores cada uno entrena dos clases diferentes.
Se usa la estrategia de votacion para clasicar: cada clasicador binario se
considera como un voto y se toma la clase con mayor n umero de votos.
Captulo 6
DESARROLLO DEL M

ETODO
6.1. Resumen
El objetivo de este trabajo consiste en modicar el proceso clasico de la clasicacion
autom atica de audio (gura 6.1) incorporando una tecnica que nos permitira uniformizar
y compactar el conjunto de caractersticas (vectores descriptores) extrados de la se nal, y
estos serviran como datos de entrada del Clasicador (gura 6.2).
Figura 6.1: Proceso cl asico de clasicaci on de patrones de audio.
Figura 6.2: Incorporando la tecnica Bag of Word al proceso clasico de clasicacion.
Cabe se nalar que en el proceso clasico, la forma normal de hallar un Vector Cuantiza-
ci on (P) de todos los vectores descriptores, es formando un vector con la media () y la
58
Captulo 6. DESARROLLO DEL M

ETODO 59
varianza (
2
) de todos los elementos (gura 6.3), haciendo que P sea de doble dimensi on
de un vector descriptor.
Figura 6.3: C alculo del Vector Cuantizaci on de una cancion.
Entonces con la tecnica BoW nos enfocaremos a desarrollar una alternativa de c alculo
del Vector Cuantizaci on de tal manera que el patr on resultante sea lo sucientemente
ecaz para caracterizar a la se nal de audio musical.
Pero antes estudiaremos su aplicacion en la clasicacion de documentos y de im agenes a
n de obtener caractersticas de dise no utiles para su aplicaci on a se nales de audio.
6.2. Bag of Word: Estado del Arte
BoW es una tecnica de clasicaci on con precedencias desde 1983 para clasicar docu-
mentos de texto, y actualmente est a siendo utilizada en la rama de la visi on computacional
para la clasicaci on de im agenes.
6.2.1. BoW en la Clasicaci on de documentos
Saltonan y McGill (1983) Presentan el modelo de Bag of Words en la representaci on
de documentos de menor orden. La tecnica consiste en que dado un texto calcula la
frecuencia de las palabras respecto a un diccionario predenido (gura 6.4). Para ello
se elabora un histograma de frecuencias de palabras (gura 6.5), este histograma recibe
el nombre de bolsa de palabras del documento. As cada texto es clasicado seg un el
resultado de las mas altas frecuencias que el histograma presenta (gura 6.6), empleando
tecnicas probabilsticas.
6.2.2. BoW en la Clasicaci on de Imagenes
BoW ha demostrado ecientes resultados en diferentes trabajos con imagenes: recono-
cimiento de texturas, reconocimiento de objetos y clasicaci on de im agenes.
La clasicacion de im agenes con BoW consiste en diversas etapas: detecci on de puntos de
interes, generaci on de descriptores, agrupamiento y clasicaci on; en donde el histograma
representa la bolsa de palabras y los cl usteres las palabras del diccionario. En la gura
Captulo 6. DESARROLLO DEL M

ETODO 60
Figura 6.4: Frecuencia de palabras en un texto.
Figura 6.5: Histograma de Frecuencia de palabras.
6.7 podemos apreciar dichas etapas aplicadas a una imagen. Para obtener mejor represen-
taci on caracterstica de la imagen, esta es dividida en sub-imagenes generando m ultiples
bolsas de palabras (BoW) [BCS09].
6.3. BoW para la Clasicaci on Automatica de Archi-
vos Musicales
Esta tecnica ya est a siendo estudiada parcialmente dentro de la Clasicaci on de Se nales
de Audio, conocida en diversas literaturas como Bag of Frames que se basa en la distribu-
ci on de la probabilidad de los descriptores. Pero nosotros aplicaremos la tecnica bas ando-
nos en el proceso considerado en la clasicacion de imagenes seg un la fuente [BCS09].
El proceso de clasicaci on consta de dos fases: Entrenamiento y Evaluaci on (test).
La fase de entrenamiento trata de extraer las caractersticas representativas de cada clase
ac ustica, que denen un modelo en concreto (gura 6.8).
Captulo 6. DESARROLLO DEL M

ETODO 61
Figura 6.6: Clasicacion de documentos por Histograma de Frecuencias.
La fase de evaluacion permite comprobar que el sistema de clasicaci on discrimina con
exactitud los diferentes tipos de archivos, a partir de los modelos representativos de cada
clase que se han obtenido en la primera fase de entrenamiento (gura 6.9).
6.3.1. Extraccion de Caractersticas
Esta etapa es muy decisiva para obtener optimos resultados de nuestro clasicador.
Consiste en aplicar las tecnicas de extracci on de caractersticas (estudiada en el captulo
4) a la se nal de audio. Como se haba indicado la se nal es dividida en instantes de tiempos
(frames) obteniendo un vector descriptor de 20 parametros por cada frame: 13 del MFCC,
6 de las tramas de tiempo especializadas y un parametro del pitch. Dependiendo del
tama no de la muestra musical se genera un conjunto de descriptores para dicho archivo
(gura 6.10).
Si las muestras musicales son diferentes dimensiones, el tama no del conjunto de descrip-
tores tambien vara. Ejemplo, para una muestra musical con una duracion de 5 segundos,
se genera 766 descriptores en promedio, deduciendo para un archivo con 3 minutos (180
segundos) tendramos en promedio 27576 descriptores, por ello, dada la magnitud de espa-
cio que ocupara en memoria, es necesario para archivos grandes aplicar un procedimiento
de fragmentacion, es decir extraer fragmentos homogeneos de la cancion en intervalos de
tiempo equidistantes.
6.3.2. Elaboracion del diccionario
Esta etapa solo es aplicada en la fase de entrenamiento del metodo y requiere todos
los descriptores de los archivos de entrenamiento de todas las clases. De la misma manera
Captulo 6. DESARROLLO DEL M

ETODO 62
Figura 6.7: Clasicacion de imagenes con m ultiples BoW [BCS09].
Figura 6.8: BoW, Etapas de Entrenamiento.
como se aplica en las im agenes, los cl usteres son entendidos como las palabras del diccio-
nario, siendo n de la experimentacion determinar el n umero de cl usteres necesarios para
un optimo agrupamiento.
Se aplica el algoritmo de k-medias (en ingles k-means) para hallar la mejor distribuci on de
los descriptores en cada uno de los cl usteres; y para calcular la distancia entre dos puntos
del espacio, probaremos diferentes tipos de distancia a n de evaluar el mejor rendimiento.
El espacio de representacion es de dimensi on 20, ya que esa es la longitud de cada vector
descriptor. Cada vector es ubicado en el espacio para luego determinar a que cl uster perte-
nece. En la gura 6.11 se gr aca un ejemplo para un vector descriptor de dos dimensiones.
Algoritmo K-medias: Supongamos que tenemos N descriptores en vectores x
1
, x
2
, ..., x
n
,
donde cada x
i
, esta representado en un espacio m dimensional y sabemos que estan
Captulo 6. DESARROLLO DEL M

ETODO 63
Figura 6.9: BoW, Etapas de Evaluaci on.
Figura 6.10: Descriptores de un archivo musical.
agrupados en k c umulos S = {s
1
, s
2
, ..., s
k
}, (k < N).
Denimos m
j
como la media del s
j
c umulo. Si los c umulos estan bien distribuidos,
podemos usar una mnima distancia de clasicaci on para separarlos. Esto es, pode-
mos decir que x
i
est a en el s
j
c umulo si x
i
m
j
es el mnimo con respecto a los k
c umulos. Esto sugiere el siguiente algoritmo para encontrar los k medias optimas:
1. Se hace una estimacion inicial para la k medias m1, m2, ..., mk.
2. Para cada iteraci on t:
a) Use la media estimada para agrupar los datos en los c umulos, aplicando
una medida de distancia:
S
(t)
j
= {x
i
: x
i
m
j
x
i
m
j
j

= 1, ..., k}
Captulo 6. DESARROLLO DEL M

ETODO 64
Figura 6.11: Agrupamiento con k-medias de los vectores descriptores de cada archivo
musical de entrenamiento.
b) Para cada uno de los c umulos s
j
, calcular la nueva media m

j
m

j
=
1
|S
(t)
j
|

x
i
S
(t)
j
x
i
c) Si m
j
m

j
umbral parada, entonces m
j
m

j
3. Ir a la siguiente iteraci on mientras que alg un m
j
m

j
> umbral parada
En nuestra implementaci on denominamos a las medias optimas como centroides:
Cen = c1, c2, ..., ck.
Medidas de Distancias: Existen diversas formulas para hallar la distancia entre dos
puntos, su rendimiento depende de la distribuci on de los puntos en el espacio. A
continuacion presentamos las distancias utilizadas en la experimentacion:
Distancia Euclidiana:
d =

i=1
(x
i
x
j
)
2
(6.1)
Distancia Hamming:
d =
N

i=1
(x
i
x
j
) (6.2)
Captulo 6. DESARROLLO DEL M

ETODO 65
Distancia de Clark:
d =

i=1
(x
i
x
j
)
2
(x
i
+x
j
)
2
(6.3)
Distancia Coseno:
d = cos() =
X.Y
XY
=

N
i=1
(x
i
x
j
)

N
i=1
x
2
i

N
i=1
y
2
i
(6.4)
6.3.3. Generaci on del Histograma de Cl uster (HoC)
El HoC es un vector que almacena la cantidad de descriptores de un archivo musical
que pertenece a cada uno de los cl usteres (Ver gura 6.12). El tama no del histograma
es igual al n umero de cl usteres, generando para cada archivo musical un histograma del
mismo tama no.
Si tenemos N descriptores en vectores X = (x1, x2, ..., xn) extrados de un archivo musi-
Figura 6.12: Histograma de Cl uster de un archivo musical
cal, el proceso de generacion del histograma es el siguiente:
Inicializamos el Hoc = {h1 = 0, h2 = 0, ..., hk = 0}
Para cada xi
hj = hj + 1, donde j se deduce de mn (xi hj), j = 1, 2, .., k
Debemos considerar que el total de descriptores por archivo vara seg un la duracion y la
frecuencia de muestreo, por lo tanto debemos escalar los valores de los histogramas a un
rango determinado entre 0 y 1.
Sea el Histograma HoC = {h
1
, h
2
, ..., h
k
}, entonces el nuevo histograma normalizado
HoC

ser a:
h

i
=
h
i
mn
m ax mn
Captulo 6. DESARROLLO DEL M

ETODO 66
En donde mn = minimo {HoC} y max = m aximo {HoC}
Como ya habamos mencionado anteriormente, este conjunto de histogramas, servira como
entrada al clasicador para denir un modelo en concreto para cada clase.
6.3.4. Clasicaci on
A partir de los histogramas generados se obtienen el modelo clasicador utilizando
una tecnica de clasicaci on de datos. Hasta la actualidad se han estudiado y aplicados
diferentes tecnicas para la clasicaci on autom atica de audio, mostrando muy buenos re-
sultados; entre ellos tenemos: los basados en Modelos de Mezclas Gaussianas (GMM),
Redes Neuronales, Metodo Oculto de Marcov (HMM), KNN y las Maquinas de Soporte
Vectorial (SVM).
La tecnica de clasicaci on escogida para este trabajo fueron las SVM estudiadas en
el capitulo anterior, que en general consiste en buscar un hiperplano que separe optima-
mente los puntos de una clase de la otra. Existen diversas libreras que implementan toda
la funcionalidad de las SVM, la escogida en este trabajo fue LibSVM, las razones de esta
elecci on le explicaremos en el pr oximo captulo.
El resultado del clasicador ser a un modelo que previamente guardado en disco,
ser a utilizado para la fase de evaluacion y consultas necesarias. Los parametros del clasi-
cador seran obtenidos en la fase de entrenamiento, para ello es necesario tener la base
de datos de entrenamiento previamente clasicada de forma manual en las diferentes
categoras consideradas seg un la gura 7.1.
Captulo 7
ENTRENAMIENTO DEL
MODELO
7.1. Resumen
En este captulo se describe el entorno en que se ha realizado el entrenamiento del
modelo, las herramientas utilizadas, la base de datos y los m odulos del sistema de clasi-
caci on. Los tipos de categorizaci on de m usica considerados para el entrenamiento fueron:
Genero Musical, Discriminacion de voz y Tipo de Sonido, as como se muestra en la gura
7.1.
7.2. Herramientas de Implementacion
Para poder entrenar y probar nuestro metodo hemos utilizado el lenguaje de alto
nivel Java, el cual es un lenguaje orientado a objetos con m ultiples caractersticas muy
atractivas para los programadores.
He aqu mencionaremos algunas de sus caractersticas que favorecieron su eleccion:
Robustez: Java verica su c odigo al mismo tiempo que se escribe y antes de ejecutarse
(por su naturaleza de ser tambien un lenguaje interpretado); de manera que se
consigue un alto margen de codicacion sin errores. Se realiza un descubrimiento
de la mayor parte de los errores durante el tiempo de compilaci on, ya que Java es
estricto en cuanto a tipos y declaraciones, y as lo que es rigidez y falta de exibilidad
se convierte en ecacia.
Gestion de memoria: Java libera al programador del compromiso de tener que contro-
lar especialmente la asignacion de espacio en memoria de los datos que son necesarios
para el funcionamiento del programa. Este lenguaje posee una gesti on avanzada de
67
Captulo 7. ENTRENAMIENTO DEL MODELO 68
Figura 7.1: Categoras de clasicacion de archivos musicales consideradas en este trabajo
memoria llamada gestion de basura, y un manejo de excepciones orientado a objetos
integrados. Estos elementos realizar an muchas tareas, antes tediosas y a la vez que
obligadas para el programador.
Para datos tan grandes como la se nal digitalizada de audio y los descriptores ex-
trados, esta caracterstica es de vital importancia.
Orientado a Objetos: Permite encapsular los objetos con sus respectivas funciones/procedimientos,
de esa manera obtenemos una implementaci on m as natural, comprensible y altamen-
te utilizable.
Completo en utilidades: Java posee una amplia gama de paquetes de utilidades, es-
tructura de datos complejos y sus metodos asociados. El Kit de desarrollo es gratuito
y existen una gran variedad de libreras externas para cualquier tipo de aplicaci on
compleja que se requiera implementar.
7.2.1. Libreras de Audio
Como habamos estudiado en el captulo 3, una se nal de audio debe ser convertida de
su forma analoga a su forma discreta, por medio de un Conversor An alogo-Digital (ADC).
Para este n utilizamos el API de Java denominado Java Sound API (gura 7.2) para
archivos de formato estandar WAV que consta de 4 paquetes [CPV00]:
Captulo 7. ENTRENAMIENTO DEL MODELO 69
javax.sound.sampled: Contiene las clases necesarias para el manejo del sonido mues-
treado, esto incluye la captura, la mezcla y la reproducci on de audio.
javax.sound.midi: proporciona las interfaces de sntesis, secuenciamiento y transpor-
te MIDI.
javax.sound.sampled.spi y javax.sound.midi.spi: proporcionan una interfaz para los
desarrolladores de servicios basados en las interfaces anteriores.
Figura 7.2: Java Sound API para digitalizar se nal analogica
Si vamos a trabajar con archivos musicales, entonces es de vital importancia considerar
el formato que rige ahora en las bibliotecas musicales, nos referimos al formato MP3. Para
ello nos agenciamos de otra librera de c odigo abierto desarrollada por el equipo JavaZoom
denominado JavaLayer. Esta librera permite decodicar y reproducir MP3 en tiempo
real utilizando los algoritmos de conversi on y comprensi on MPEG (gura 7.3).
Figura 7.3: Arquitectura de la Librera de JavaLayer para descomprimir MP3 [JavaZoom].
7.2.2. Librera para las SVM: LibSVM
La comunidad de las SVM en su pagina http://www.support-vector-machines.org/
publica una lista de libreras y aplicaciones que implementan parcial o totalmente la
teora relacionada a las SVM. Nosotros decidimos usar la librera LibSVM, esencialmente
por recomendaci on de diversas fuentes y sobre todo porque esta implementado en varios
lenguajes de programaci on incluyendo Java.
A continuaci on se describe algunas caractersticas de esta Librera:
Implementa los tipos de SVM de entrenamiento m as comunes: C-SVC y v-SVC.
Captulo 7. ENTRENAMIENTO DEL MODELO 70
Tambien implementa los tipo de Kernel mas utilizados: Lineal, Polinomica, Gaus-
siana (RBF) y Sigmoide.
Permite la clasicacion multiclase, utilizando la maquina one-versus-one.
Implementa el procedimiento para realizar validacion cruzada.
Metodos para obtener la probabilidad de clasicacion.
Adem as de tecnicas de para reducir el coste de consumo de recursos de tiempo y
memoria.
7.3. Base de Datos
Se logr o conseguir una base de datos de 4400 piezas musicales para el entrenamien-
to: 500 piezas de m usica instrumental (sin voz), 500 que contienen m usica con voz, 500
piezas de m usica Hip Hop, 500 de metal, 500 de jazz , 500 de rock, 700 piezas de m usica
mesurada y 700 de m usica energica.
Cada pieza musical tiene una duraci on de 5 segundos y est an en formato mp3 con fre-
cuencia de muestreo de 22050 Hz.
Para obtener estas piezas de 5 segundos, se procedi o a seleccionar un conjunto de can-
ciones por categora desde una biblioteca musical, y utilizando una herramienta Mp3
Cutse procedio fragmentar las canciones seleccionadas.
El trabajo agotador fue analizar a odo archivo por archivo fragmentado, de tal mane-
ra que conservaran las caractersticas de su categora original, descartando aquellos que
haban perdido caracterizaci on al momento de la fragmentacion.
7.4. Modulos de Entrenamiento
A continuacion se describe los modulos implementados y los valores de sus parametros
iniciales elegidos.
7.4.1. Modulo de Descriptores
Entrada:
Se nal Digitalizada de cada archivo musical X
Salida:
Conjunto de Descriptores de cada archivo P
Captulo 7. ENTRENAMIENTO DEL MODELO 71
Este modulo implementa la fase de extraccion de caractersticas. La se nal es dividida
en tramas de tiempo utilizando la ventana Hamming de 23 segundos y solapamiento de
10 segundos.
Para el ltro pre-enfasis se utiliza un factor 0.97.
En la conguracion del MFCC se utilizaron 13 ltros Mel seg un el estandar ETSI ES 201
108 V1.1.2.
7.4.2. Modulo de Agrupamiento
Entrada:
Conjunto de Descriptores de todos los archivos musicales {P1 , P2, ...}
Centroides Iniciales Cen
Umbral de Parada
Salida:
Conjunto de Centroides

Optimos Cen
En este modulo se optimizan los centroides que vienen a ser la media de los elementos
de cada cl uster. Se considero un umbral de parada de 0.005.
Este modulo se aplica para cada categora de clases, y a un conjunto de archivos de
entrenamiento elegidos aleatoriamente:
Por genero musical: 200 archivos, 50 por cada clase.
Por discriminaci on de voz: 100 archivos sin voz y 100 con voz.
Por tipo de contenido: 100 archivos de m usica mesurada y 100 de m usica energica.
Si en promedio por cada archivo se genera 766 descriptores, entonces tenemos un total
de 459600 descriptores aproximadamente.
El algoritmo de agrupamiento K-medias fue implementado a mano. Pero aun as el tiempo
para encontrar los Centroides es bastante elevado, por ejemplo para 151157 descriptores
con K=100 tuvo una duraci on de 22 minutos con 59 segundos.
7.4.3. Modulo de Histograma de Entrenamiento
Entrada:
Conjunto de descriptores para cada archivo musical de entrenamiento P
Captulo 7. ENTRENAMIENTO DEL MODELO 72
Conjunto de Centroides Cen
Salida:
Histograma para cada archivo musical de entrenamiento HoC
Se genera el histograma de dimension igual al n umero de centroides, adem as el valor
total de cada elemento debe ser escalado a un rango de [0, 1] de esta manera evitamos que
los archivos que tengan una gran cantidad de descriptores dominen sobre los peque nos.
7.4.4. Modulo de Clasicacion SVM
Entrada:
Histogramas de Entrenamiento de todos los archivos {HoC1, HoC2, ...}
Clasicaci on por cada categora Clases
Conguraci on de las SVM Param
Salida:
Datos de entrenamiento por cada categora Modelo(Categora)
En este modulo se genera el modelo clasicador para cada categora de clases.
Utilizando la librera LibSVM se congur o los par ametros de la siguiente manera:
Tipo de SVM utilizado fue el C-Suport Vector Clasication (C-SVC)
Se consider o para la experimentacion 4 tipos de Kernels: Polin omica (con grado 3),
Lineal, Sigmoide y Gaussiana (RBF).
Valor de gamma inicial (evaluaci on de rejilla) de 0.05.
Selecci on de C (Error penalty) 100
Captulo 8
EVALUACI

ON Y RESULTADOS
8.1. Resumen
En este captulo se detalla la evaluaci on del metodo y se mostrara los resultados
obtenidos. Se probar a con diferentes conguraciones a n de seleccionar los par ametros
mejor ajustados en la obtenci on de un buen desempe no en la clasicaci on de archivos
musicales en sus diversas categoras consideradas.
8.2. Base de Datos
Para la fase de evaluaci on contamos con 1180 archivos musicales distribuidos de la
siguiente manera: 150 de m usica instrumental, 150 de m usica con voz, 120 del genero Hip
Hop, 120 de metal, 120 de jazz y 120 de rock, 200 de m usica mesurada y 200 de m usica
energica. Estos archivos fueron obtenidos de la misma forma que los utilizados en la fase
de entrenamiento.
8.3. Modulos de Evaluaci on
Estos modulos se dise nan a partir de una variacion de los modulos de entrenamiento,
con la nalidad de adecuarse a los datos de evaluacion.
8.3.1. Modulo de Histograma de Evaluaci on
Entrada:
Conjunto de descriptores para cada archivo musical de prueba P
Conjunto de Centroides Cen
73
Captulo 8. EVALUACI

ON Y RESULTADOS 74
Salida:
Histograma para cada archivo musical de evaluaci on HoC
Tambien se normaliza los elementos del histograma a un rango de [0, 1].
Los Centroides son ledos desde un archivo en formato txt que fue obtenido y guardado
en la fase de entrenamiento.
8.3.2. Modulo de Prediccion SVM
Entrada:
Histogramas de todos los archivos de prueba HoC
1
, HoC
2
, ...
Modelo entrenado SVM
Salida:
Clasicaci on de cada archivos musical Pred
Este modulo utiliza la funci on decisi on de las SVM para obtener la clase de pertenencia.
El modelo SVM es ledo tambien desde disco que ha sido previamente guardado en la fase
de entrenamiento.
8.4. Evaluando la Mejor Medida de Distancia
Al momento de efectuar el agrupamiento utilizando el algoritmo de k-medias, necesi-
tamos una medida de distancia que sea lo sucientemente eciente para medir la separabi-
lidad de nuestros datos. Por ello aplicamos una tecnica informal denominada B usqueda
por Ranking.
Para este proposito, se considero una Base de datos de descriptores (T) de 900 archivos
musicales (5seg) de dos generos musicales: 450 de Hip Hop y 450 de Metal. Ademas un
conjunto de descriptores de evaluacion (Y ) de 50 archivos musicales de la misma cate-
gora: 25 de Hip Hop y 25 de Metal.
Por cada archivo se obtiene la media de todos sus descriptores extrados.
1. Cada descriptor esta asociado a una Clase de genero musical C1 = HipHop, C2 = Metal
2. Para cada Y
j
:
Captulo 8. EVALUACI

ON Y RESULTADOS 75
a) Se compara con todos los descriptores de la base de datos, y se ordena los
descriptores de menor a mayor respecto a la distancia obtenida.
DIST(i) = distancia(T(i), Y
j
)
DIST = mergesort(DIST)
b) Obtenemos los pesos:
X(i) = (MAX DIST(i)) (N i)
Donde MAX es el valor m aximo de DIST y N es el cardinal de X
c) Obtenemos el porcentaje de acierto para cada Clase:
P
Cj
=
K

i=1
X(i)
100
P
,
Adem as la Clase de X(i) es C
j
P =
K

i=1
X(i)
Para obtener el porcentaje de acierto P
Cj
solo se considera los primeros K descriptores,
ya que suponemos que los descriptores de la misma clase de Y
j
est an distribuidos en las
primeras posiciones.
Resultados de esta evaluacion se muestra en la tabla 8.1.
Concluimos que la mejor distancia es Clark, aunque en las pruebas con K=300
y K=150 no es muy signicativa los resultados respecto a la Clase HipHop, pero lo m as
importante es que se obtenga mayor acierto en los primeros descriptores.
Por otro lado se aprecia que la distancia Euclediana y Hamming tienen la misma tasa de
acierto.
* La Distancia Coseno es recomendada por diversas literaturas para ser aplicados a des-
criptores obtenidos con la tecnica MFCC, pero no se pudo lograr resultado alguno para
nuestro caso ya que los datos se vuelven nmamente peque nos.
8.5. Experimentos
Los resultados de la experimentaci on lo mostraremos en forma de una Matriz de Con-
fusi on Porcentual (tabla 8.3). Esta tecnica es empleada en el campo de la inteligencia
Captulo 8. EVALUACI

ON Y RESULTADOS 76
Para K=300
% Acierto HipHop Metal
Euclediana 53.39 55.73
Hamming 53.39 55.73
Clark 49.84 78.20
Para K=150
% Acierto HipHop Metal
Euclediana 73.03 66.13
Hamming 73.03 66.13
Clark 47.61 89.03
Para K=50
% Acierto HipHop Metal
Euclediana 100.00 67.26
Hamming 100.00 67.26
Clark 100.00 96.36
Cuadro 8.1: Resultado de la Mejor Medida de Distancia
articial como una herramienta de visualizaci on en el aprendizaje supervisado. Cada co-
lumna de la matriz representa el porcentaje de predicciones de cada clase, mientras que
cada la representa a las instancias en la clase real. El principal benecio de las matrices
de confusion es que facilitan ver si el sistema est a confundiendo dos clases. Los valores en
la diagonal pii viene a ser el porcentaje de acierto de la predicci on de la Clase i.
Clase1 Clase2 Clase3
Clase1 p11 p12 p13
Clase2 p21 p22 p23
Clase3 p31 p32 p33
Cuadro 8.2: Matriz de Confusi on Porcentual
8.5.1. Evaluando el N umero de Cl usteres
Como primer experimento es seleccionar la cantidad de cl usteres optimos para una
mejor distribucion de los descriptores en el espacio de dimensi on igual al tama no del
vector descriptor (20).
Experimento 1: 50 Cl usteres y Kernel RBF (tabla 8.3).
Experimento 2: 100 Cl usteres y Kernel RBF (tabla 8.4).
Captulo 8. EVALUACI

ON Y RESULTADOS 77
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 76.67 3.33 2.50 14.17
Metal 5.00 81.67 0.83 19.17
Jazz 8.33 0.00 83.33 4.17
Rock 10.00 15.00 13.33 62.50
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 80.00 28.67
Sin Voz 20.00 71.33
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 81.50 27.50
Energicas 18.50 72.50
Cuadro 8.3: Resultado Experimental con 50 cl usteres
Experimento 3: 150 Cl usteres y Kernel RBF (tabla 8.5).
Resultados: La fase de entrenamiento consume un alto grado de tiempo de procesamien-
to, cuanto mas grande sea el n umero de cl usteres, el tiempo aumenta polinomial-
mente. Por ejemplo para el experimento 1 con 50 cl usteres, tuvo una duraci on total
(extracci on de descriptores, agrupacion y generacion del histograma) de 45 minutos
aproximadamente. Pero para el experimento 3 con 150 cl usteres se tomo un tiempo
de 2h 35min.
En todos los experimentos realizados (tabla 8.3 , 8.4 y 8.5) se nota una confusi on
entre las clases Rock y Metal, debido a que el metal es un genero musical derivado
del rock pesado. Adem as la gran variedad de ritmos derivados del Rock, hace difcil
obtener una muestra pura de este genero, por tal motivo tiende a confundirse con
el ritmo de otros generos como metal, pop, blues, cumbia, etc.
Seg un la gura 8.1 el crecimiento de acierto tiende a ser lineal conforme se aumente
el n umero de cl usteres mayor es el acierto, pero tambien mayor es el tiempo de
ejecuci on, mayor numero de iteraciones, se consumen m as memoria interna, y so-
bre todo aumenta el n umero de vectores de soporte (tabla 8.6 ) lo cual demuestra
que se hace m as compleja la separabilidad entre clases, necesitando mas vectores
para denir el hiperplano de separacion optimo. Por tal motivo ya no se contin uo
aumentado el tama no de cl uster, pero si as quisieramos debemos tambien debemos
agregar mas nuestras a nuestra base de archivos musicales de entrenamiento.
Captulo 8. EVALUACI

ON Y RESULTADOS 78
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 79.17 2.50 3.33 11.67
Metal 1.67 88.33 1.67 11.67
Jazz 12.50 0.00 81.67 0.83
Rock 6.67 9.17 13.33 75.83
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 82.67 26.00
Sin Voz 17.33 74.00
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 83.00 23.00
Energicas 17.00 77.00
Cuadro 8.4: Resultado Experimental con 100 cl usteres
Concluimos entonces que para nuestro modelo clasicador elegiremos como par ame-
tro de agrupaci on 150 cl usteres .
8.5.2. Evaluando el kernel de clasicacion
En todas las fuentes consultadas referencian que el kernel RBF es el m as optimo en el
proceso de clasicaci on. Nosotros probaremos si ocurre lo mismo con los histogramas de
descriptores de se nales de audio.
Experimento 4: 150 Cl usteres y Kernel SIGMOIDE (tabla 8.7)
Experimento 5: 150 Cl usteres y Kernel LINEAL (tabla 8.8)
Experimento 6: 150 Cl usteres y Kernel POLIN

OMICA (tabla 8.9)


Experimento 7: 150 Cl usteres y Kernel RBF (tabla 8.10)
Resultados: Seg un se puede apreciar en el gr aco resumen (gura 8.2 ), el kernel sig-
moide no consigue mapear ecazmente los puntos en el espacio de mayor dimensi on,
confundiendo a nuestro modelo clasicador, llegando a un extremo de 15.83 % de
acierto para el caso de la clase metal, y en promedio para todas clases solo logra
37.42 % de acierto. Sin duda este kernel queda totalmente descartado para ser uti-
lizado en patrones de se nales de audio.
Para los demas kernels, el porcentaje promedio de acierto fue de: 73.04 % para el
Captulo 8. EVALUACI

ON Y RESULTADOS 79
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 85.00 1.67 4.17 7.50
Metal 2.50 82.50 0.00 11.67
Jazz 10.83 0.00 82.50 4.17
Rock 1.67 15.83 13.33 76.67
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 82.00 26.00
Sin Voz 18.00 74.00
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 81.00 18.50
Energicas 19.00 81.50
Cuadro 8.5: Resultado Experimental con 150 cl usteres
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
Categora
Cl usteres
50 100 150 Lmite
Genero Musical 1114 1352 1507 2000
Discriminaci on Voz 608 779 886 1000
Tipo de Sonido 802 962 1153 1400
Cuadro 8.6: Cantidad de Vectores de Soporte por cada experimento
kernel lineal, 77.75 % para el polinomial y el 80.65 % para el RBF.
RBF predomina sobre los dem as porque en teora tiene menos hiperpar ametros
(C, ) que los otros kernels, y por ende menor complejidad computacional del mo-
delo. Adem as RBF mapea los datos de entrenamiento manteniendo el rango de su
valor entre 0 y 1, reduciendo los problemas numericos que pueden presentarse como
suele ocurrir con el kernel polinomial en un rango de [0, ].
Entonces podemos armar que el kernel RBF logra mejores resultados de
clasicaci on, siendo seleccionado como parametro clasicador para nuestro sistema
El resultado nal para cada una de las clases se puede apreciar en la tabla 8.11.
Captulo 8. EVALUACI

ON Y RESULTADOS 80
Figura 8.1: Gr aco Resumen de la evaluaci on del n umero de cl usteres
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 41.67 15.83 15.83 17.50
Metal 18.33 15.83 5.83 14.17
Jazz 10.83 30.83 22.50 32.50
Rock 29.17 37.50 55.83 35.83
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 48.00 64.00
Sin Voz 52.00 36.00
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 51.50 52.00
Energicas 48.50 48.00
Cuadro 8.7: Resultado Experimental con Kernel Sigmoide
Captulo 8. EVALUACI

ON Y RESULTADOS 81
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 79.17 5.83 6.67 20.83
Metal 3.33 74.17 0.00 15.00
Jazz 11.67 0.83 80.83 5.00
Rock 5.83 19.17 12.50 59.17
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 74.00 32.00
Sin Voz 26.00 68.00
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 76.5 27.50
Energicas 23.50 72.50
Cuadro 8.8: Resultado Experimental con Kernel Lineal
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 85.83 1.67 6.67 14.17
Metal 1.67 81.67 1.67 12.50
Jazz 10.00 0.83 82.50 7.50
Rock 2.50 15.83 9.17 65.83
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 73.33 18.67
Sin Voz 26.67 81.33
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 74.50 23.00
Energicas 25.50 77.00
Cuadro 8.9: Resultado Experimental con Kernel Polinomica
Captulo 8. EVALUACI

ON Y RESULTADOS 82
Genero Musical
% Hip Hop Metal Jazz Rock
Hip Hop 85.00 1.67 4.17 7.50
Metal 2.50 82.50 0.00 11.67
Jazz 10.83 0.00 82.50 4.17
Rock 1.67 15.83 13.33 76.67
Discriminaci on de Voz
% Con Voz Sin Voz
Con Voz 82.00 26.00
Sin Voz 18.00 74.00
Tipo de Sonido
% Mesuradas Energicas
Mesuradas 81.00 18.50
Energicas 19.00 81.50
Cuadro 8.10: Resultado Experimental con Kernel RBF
Figura 8.2: Gr aco Resumen de la evaluaci on del n umero de cl usteres
Captulo 8. EVALUACI

ON Y RESULTADOS 83
Genero Musical
Hip Hop Metal Jazz Rock
85.00 82.50 82.50 76.67
Discriminaci on de Voz Tipo de Sonido
Con Voz Sin Voz Mesuradas Energicas
82.00 74.00 81.00 81.50
Cuadro 8.11: Resultado general del porcentaje de acierto aplicando el metodo desarrollado
Captulo 9
CONCLUSIONES Y
RECOMENDACIONES
9.1. Conclusiones
1. Como conclusi on general se puede observar que el objetivo propuesto fue cumplido
satisfactoriamente. Agregar la tecnica Bag of Word al proceso cl asico de clasi-
caci on, aumenta la complejidad computacional en la fase de entrenamiento, pero
sin embargo obtenemos un vector con mayor caracterizacion de la se nal, con un
promedio de acierto de 80.65%.
2. Entre toda una gama de posibilidades en la evaluaci on de parametros, se concluye
para nuestra base de piezas musicales de entrenamiento, lo siguiente:
Se obtiene optimos resultados en la agrupaci on y generaci on del histograma si
utilizamos la medida de distancia de Clark.
Se logra obtener un mejor histograma representativo de la se nal con 150 cl uste-
res.
El kernel RBF consigue mayor separabilidad de clases, a demas de una mejor
complejidad computacional.
3. El c alculo del Pitch en la extraccion de caractersticas es determinante para denir
la tonalidad de la se nal de audio, debido a que la tonalidad es una caracterstica
clave en las se nales de contenido musical.
4. Una de las limitaciones del metodo desarrollado es que no contempla la fase de
segmentaci on de la se nal cuando se trata de canciones con una larga duraci on. Una
alternativa aplicada es obtener fragmentos de la cancion en un intervalo de tiempo
84
Captulo 9. CONCLUSIONES Y RECOMENDACIONES 85
homogeneo, y aplicar la prediccion para cada fragmento obtenido y retornar la clase
con mayor acierto en los fragmentos.
Captulo 9. CONCLUSIONES Y RECOMENDACIONES 86
9.2. Recomendaciones
1. Recomendamos mejorar las caractersticas relacionados a la tonalidad con la tecnica:
Vectores de Croma (VC) [SV05]. Esta tecnica se basa en la escala cromatica de 12
semitonos por cada octava (do, do#, re, re#, mi, fa, fa#, sol, sol#, la, la#, si);
utilizando los ltros cromaticos obtenemos un vector de 12 componentes (VC) para
cada trama. De esta manera se logra conseguir una especie de histograma de notas
musicales de la se nal de audio, con mucha relevancia para la caracterizaci on de
generos musicales.
2. En la referencia [TC02] se describe la utilizacion de la Transformada Discreta de
Wavelets para hallar un conjunto de 6 descriptores relacionados a la ritmo de la can-
ci on. Los wavelets optimizan el an alisis arm onico ya que permite realizar un an alisis
de la se nal tanto en el dominio frecuencial como en el temporal, generalizando am-
pliamente el concepto de la transformada de Fourier que hemos utilizado en este
trabajo.
3. Debemos reducir la dimensi on de nuestro vector descriptor, empleando una tecnica
proveniente del an alisis exploratorio, denominado Analisis de Componentes Princi-
pales (ACP). El objetivo de esta tecnica es reducir los par ametros de caractersticas
a un menor n umero, perdiendo la menor cantidad de informaci on posible, de es-
ta manera se evita los problemas derivados de la posible correlaci on entre diversos
grupos de par ametros.
4. Se recomienda utilizar solo archivos en formato MP3, ya que este tipo de formato
comprime el audio con cierta perdida de informacion, pero reduce el tama no del
archivo considerablemente.
Bibliografa
[MM04] Ingo Mierswa and Katharina Morik. Automatic Feature Extraction for Clas-
sifying Audio Data. Articial Intelligence Unit, University of Dortmund, Germany,
2004.
[GR08] Olivier Gillet and Gael Richard. Transcription and Separation of Drum Signals
from Polyphonic Music. IEEE transactions on audio, speech, and language processing,
(vol. 16, no. 3), 2008.
[SV05] Gabriela Sarachaga y Laura Vignoli. Identicaci on automatica de resumen en
canciones. Universidad De La Rep ublica, Uruguay, 2005.
[CGT06] Lei Chen, Sule G und uz y M. Tamer. Mixed Type Audio Classication with
Support Vector Machine. IEEE, 2006.
[TC02] George Tzanetakis y Perry Cook. Musical genere classication of audio signals.
IEEE Trans. Acoustic Speech and Signal Processing, (vol. 10, no. 5), Julio - 2002.
[PR02] Georoy Peeters y Xavier Rodet. Automatically selecting signal descriptors for
Sound Classi?cation. Ircam - Centre Pompidou, 2002.
[JR05] Jose J. Rinc on Pasaye. Introducci on al Procesamiento Digital de Se nales. Univer-
sidad Michoacana de San Nicol as de Hidalgo, 2005.
[CG00] Eleanor Chu y Alan George. Insidethe FFT Black Box - Serial and ParallelFast
Fourier TransformAlgorithms. CRC Press LLC, Canada, 2000.
[VW99] Alan V. Oppenheim y Ronald W. Schafer. Tratamiento de Se nales en Tiempo
Discreto. 1999.
[HAH01] Xuedong H., Alex A. y Hsiao-Wuen H. Spoken Language Processing: a Guide
Theory, Algorithm, and System Development. 1st- Prentice Hall PTR, 2001.
[TH03] Toni Heittola. Automatic Classication of Music Signals. Department of Infor-
mation Technology, Tampere University of Technology, 2003.
87
Bibliografa 88
[PE08] Prieto L. Enrique. Estudio Comparativo de Par ametros Espectrales para Clasi-
caci on de Audio. Universidad Carlos Aide Madrid, Espa na, 2008.
[BCS09] Juan Barrios, Violeta Chang y Jose Saavedra. Bag of Words en Imagenes. Grupo
Prisma, Universidad Nacional de Chile, 2009.
[ETSI00] ETSI ES 201 108 V1.1.2. Speech Processing, Transmission and Quality as-
pects (STQ); Distributed speech recognition; Front-end feature extraction algorithm;
Compression algorithms. ETSI Standard, 2000-04.
[LMH05] Fu-Hua Liu, Richard M. Stern, Xuedong Huang y Alejandro Acero. EFFI-
CIENT CEPSTRAL NORMALIZATION FOR ROBUST SPEECH RECOGNITION.
Department of Electrical and Computer Engineering, School of Computer Science, Car-
negie Mellon University, Pittsburgh, PA 1521, 2005.
[SLEH06] I. Saratxaga, I. Luengo, E. Navas, I. Hernaez, J. S anchez y I. Sainz. Detecci on
de Pitch en condiciones adversas. Escuela Tecnica Superior de Ingeniera, Universidad
del Pas Vasco, 2006.
[DRR67] D.R. Redy. Pitch Period Determination of Speech Sounds. Communications of
the ACM, (vol. 10, no. 6), 1967.
[GA05] L. Gonz alez Abril. Modelos de Clasicaci on basados en M aquinas de Vectores.
Departamento de Economa Aplicada I, Universidad de Sevilla, 2005.
[VV95] V.

N. Vapnik. The nature of statistical learning theory. New York: Springer-
Verlag, 1995.
[RH04] Ricardo Henao. Seleccion De Hiperparametros En M aquinas De Soporte Vectorial.
Universidad Nacional De Colombia, 2004.
Bibliografa 89
Linkografa
[HJ06] Humberto Jurado. Principios de la ac ustica. [Consulta: 08 de Abril de 2010],
http://principiosdeacustica.blogspot.com, 2006.
[BEE09] Blog de la clase Educaci on Estetica. Las Cualidades del Sonido. [Consulta: 08
de Abril de 2010], http://musicaenlamayor.blogspot.com, 2009.
[SJP03] Sergi Jord a Puig. Principios de la Acustica. [Consulta: 10 de Abril de 2010],
http://www.dtic.upf.edu/ sergi, 2003.
[WS99] Steven W. Smith. The Scientist and Engineers Guide to Digital Signal Proces-
sing. [Consulta: 11 de Abril de 2010], http://www.dspguide.com, 1999.
[DB96] Digital Bubblebath. Pitch Determination. [Consulta: 12 de Abril de 2010],
http://www.owlnet.rice.edu/ elec431/projects96/ digitalbb/ pitch.html, 1996.
[CPV00] Carlos Prades del Valle. Sonido en JAVA. [Consulta: : 31 de Mayo de 2011],
http://cprades.eresmas.com/Tecnica/sonidoenjava.html, 2000.

Anda mungkin juga menyukai