Anda di halaman 1dari 4

Artculos Sistemas Embebidos

Optimizacin Automtica de la mtrica similar de la msica, usando pares similares.


Thorsten Kastner, Juerguen Herre, Eric Allamanche. Automatic Optimization of a Music Similarity Metric using Similarity Pairs. Fraunhofer Institute for Integrated Circuits, Alemania. 2004 Al aumento de datos multimedia con el paso del tiempo, se hace necesario proveer mtodos eficientes de bsqueda e ndice para contenido de audio, para hacer bsquedas automticas por gnero. Este paper presenta un mtodo que combina una configuracin de parmetros de caractersticas perceptuales de bajo nivel con una estrategia de clasificacin apropiada, para la tarea de recuperar canciones con sonido similar en una base de datos, esto, con el objetivo de evitar el consumo de tiempo organizando la msica y se basa en el calculado ndice de similaridad que refleja la similaridad entre pares similares especficamente integrados. Para facilitar la bsqueda de msica, se utiliza meta-data, que puede dar una descripcin general de tems musicales, como el gnero, timbre, vivacidad e intencin, pero esto a veces no es suficiente. El ndice de similaridad ser calculado para evaluar el desempeo del sistema para encontrar sonidos de canciones similares en una base de datos. Esta evaluacin automtica se aplicar para observar la efectividad de la bsqueda. La nocin de la similaridad de la msica puede ser interpretada de diferentes formas, de acuerdo a la percepcin y a la diferencia que puede haber entre la forma de interpretacin. Con solo unas pocas caractersticas acsticas y un esquema de clasificacin simple, los autores son capaces de clasificar sonidos desconocidos en unas categoras predefinidas. Los coeficientes cepstrales Melfrequency han funcionado bien describiendo la forma de espectros de frecuencia pequeos, basndose en la informacin del timbre. Adems de esto, estas caractersticas tienen su fundacin en el rea de procesamiento de habla y reconocimiento, hay buenos candidatos para medir similaridades acsticas. Una aplicacin de MFCCs es encontrar msica similar. La clasificacin se hace por un modelo Gaussiano mezclado, con solo tres componentes mezclados con una distancia de medida apropiada. Se tomaron en cuenta algunas caractersticas para hallar estas similaridades, como: La tasa de cruce por cero (ZCR): cuenta los nmeros de cambio de signo de la forma de onda de la seal en un frame. Es un indicador de presencia de voz Los coeficientes cepstrales reales (RCC): eficientes formas de representar una forma de envolvimiento espectral de la seal.

Los coeficientes cepstrales Mel-frequency (MFCC): se utiliza para aplicaciones de la voz y aplicaciones MIR. La medida de espectro plano (SFM): indica que tan plana es la densidad de potencia espectral en una sub banda dada. Factor de cresta espectral (SCF): indica que tan poco plano es el espectro de potencia, expresando la relacin pico por promedio dentro de cada sub banda La caracterstica de energa baja: es un establecimiento en el anlisis a largo plazo y refleja la textura de la cancin. El flujo espectral : es la medida del cambio de espectro local sobre el tiempo La inclinacin espectral: es un indicador de la pendiente general del envolvimiento espectral. Sonoridad normalizada: Es normalizada dividiendo la sonoridad especfica con cada sub banda por la sonoridad sobre todas las bandas La sonoridad logartmica delta: es la derivada de tiempo de banda del logaritmo para sonoridad especfica. La nitidez: Es un indicador global para la cantidad de componentes de frecuencias altas en el espectro.

En el caso de extraccin de frecuencias, se utiliza un proceso de enventanado, seguido por una transformada de Fourier. Se utilizaron dos estrategias de entrenamiento y clasificacin para estimar la similaridad de la msica: La primera consiste en un algoritmo de cuantizacin de vector (VQ) para lograre una representacin condensada de las caractersticas del vector. La segunda consiste en la extraccin de caractersticas de un vector representada usando el modelo de mezcla gaussiana (GMM). Los resultados de clasificacin representan la probabilidad de ser un elemento de la prueba perteneciente a los elementos de la base de datos. Para cada estrategia de clasificacin, se realizan los siguientes pasos: Las caractersticas son extradas de todos los 30 tems de la base de datos de entrenamiento por 30 segundos La similaridad entre estas caractersticas y las de entrenamiento, se determina usando una clasificacin kNN y por otro lado empleando la clasificacin GMM resultando en la distancia de valores de probabilidad/puntuacin entre todos los tests y el entrenamiento. Los valores de distancia entre los tems del test y los tems del entrenamiento, se usan para clasificar de acuerdo a la similaridad con respecto a un tem particular Para cada uno de los tems, la posicin de la lista de su contraparte estilstica en la base entrenada es determinada y promediada a travs de los tems, resultando una lista de probabilidad de posicin.

Utilizando la lista de probabilidad de posicin, para comparar la similaridad, el objetivo del proceso de desarrollo es reducido a un procedimiento automtico para lo cual, la cantidad de tiempo consumido en tests subjetivos de escucha, pueden ser evitados efectivamente.

Controladores embebidos para dispositivos de audio:


Greg Bartlett. Embedded Controilers for Audio Devices. PAVO, Philadelphia, PA, USA. 1994 Los controles embebidos fundamentales son presentados a lo largo del paper, con una vista general a los controladores basados en MIDI que pueden ser fcilmente adaptados para usar en productos de audio y sistemas. Este paper busca introducir a procedimientos simples de desarrollo para aadir dispositivos de control de computadora a dispositivos de audio. El control embebido requiere un computador embebido, con memoria, donde se almacenan los datos, unidad lgica aritmtica, unidad de control y entradas y salidas. Hay varios tipos de memoria, como la RAM, la RAM dinmica, la RAM esttica, la ROM, la ROM programable, la ROM programable borrable y la ROM elctrica. La unidad lgica aritmtica desarrolla operaciones lgicas, la unidad de control decodifica y dirige ejecuciones, el contador de programa mantiene la direccin para ejecutar la siguiente instruccin y el acumulador mantiene entradas y salidas de operaciones lgicas. Los controles embebidos aaden potencia funcional a diseos de circuitos anlogos. Existen plataformas de desarrollo genrico que permiten al ingeniero de diseo anlogo una metodologa robusta para aadir funciones de control embebido para equipamiento de audio en una forma eficiente de tiempo y costos.

Usando Extraccin de mltiples caractersticas con modelos estadsticos para categorizar msica por gnero
Benjamin Fields. Using Multiple Feature Extraction with Statistical Models to Categorize Musica by Genre. Goldsmiths College. University of London. United Kingdom. 2007 En aos recientes, ha aumentado la popularidad de los dispositivos porttiles de audio. Esto unido a el crecimiento de produccin de computadores personales y dispositivos integrados, la forma en la que la gente escucha msica ha cambiado. Para facilitar la categorizacin de las libreras de msica, se utiliza un sistema usando caractersticas vectoriales MPEG-7 , as como MFCC clasificados a travs de Modelos de Markov y otros mtodos estadsticos. La salida de estos modelos es comparada posteriormente y se elige el gnero al que pertenecen, basado en el modelo que mejor se ajuste. Los resultados son analizados para mejorar los sistemas de clasificacin y categorizacin, derivada de descriptores de audio extrados que expanden los sistemas existentes.

VisualAudio Un ambiente para disear, escuchar, y probar aplicaciones integradas de audio


David A. Jaffe, Paul Beckman, Britton Peddie. VisualAudio An Environment for Designing, Tuning, and Testing Embedded Audio Aplications. Audio Rendering Technology Center. San Jos California 2005 Se enfoca en procesamiento de aplicaciones integradas y trabaja en dispositivos anlogos y procesadores Blackfin. Es apropiado para un rango de aplicaciones incluyendo audio de propsito general, pro audio, cajas musicales y sistemas de audio para automviles. Este artculo describe las decisiones que se tomaron en el diseo de visualAudio y como ellos se adaptaron al ambiente de procesamiento integrado. VisualAudio ha probado ser una herramienta viable para agilizar la implementacin de productos de audio en sistemas anlogos y su comienzo para ser usados en procesadores Blackfin. Este fue diseado desde el inicio con estas aplicaciones en mente y focalizados en este objetivo. Adems de esto, esta herramienta, con su ventana de trabajo, mdulos y decodificadores se desarroll en paralelo, y fueron integradas a otro, mientras mantienen independencia suficiente para permitir usarlo separadamente.

BillaBoop: Real-Time Voice-Driven Drum Generator


Amaury Hazan. BillaBoop: Real-Time Voice-Driven Drum Generator. Pompeu Fabra University Music Technology Group, Barcelona. 2005 El sistema consiste en componentes de generacin de descripcin que computan una serie de caractersticas temporales y espectrales de la ventana de entrada, un componente de deteccin multibanda basado en variaciones espectrales de la corriente de entrada, un componente de aprendizaje de la mquina que asigna a para cada golpe vocal de la entrada, una etiqueta. Ambos supervisados y sin supervisin son considerados para la tarea de aprendizaje. El ltimo componente es un generador de beats, que genera un flujo rtmico de salida tomado en unas caractersticas expresivas contnuas del desarrollo vocal. Este trabajo puede ser visto como un paso preliminar, para construir una interfaz robusta capaz de procesar un rango de seales del mundo real. Adems, algunas onomatopeyas vocales pueden corresponder a la misma etiqueta, dependiendo del estilo de ejecucin del artista. As, consideramos un amplio rango de seales orales percutivas de diferentes intrpretes en la perspectiva de construccin de un modelo de uso inmediato, sin un paso de aprendizaje prioritario. Todos estos componentes estn integrados en una aplicacin de baja latencia que permite su uso para su ejecucin en vivo.

Katherine Garca Cruz 20081235110