Prudente
1. Introduo
A Recuperao de Imagens Baseada em Contedo, ou simplesmente CBIR (Content-Based Image Retrieval), utiliza tcnicas de processamento de imagens para recuperar imagens similares a uma determinada imagem de consulta. Atualmente, CBIR soluo para buscas em bases de imagens e tem sido til em diversas aplicaes, tais como sistemas CAD (Computer-Aided Diagnosis), sistemas de busca em PACS (Picture Archiving and Communication System) e, mais recentemente, sistemas para testes automatizados de software. Os sistemas de CBIR envolvem basicamente trs partes: (i) extratores de caractersticas, algoritmos baseados em tcnicas de processamento de imagens que obtm as propriedades de uma imagem e as armazenam em estruturas de indexao (vetores de caractersticas); (ii) funes de similaridade ou funes de distncia, que calculam a semelhana entre os vetores de caractersticas de duas imagens; e (iii) o banco de dados, que envolve estruturas especficas de armazenamento e recuperao de dados para este tipo de aplicao [22]. A comparao entre duas imagens, ou entre uma imagem e um modelo, a operao fundamental para sistemas de recuperao desenvolvidos para esses objetos [21]. Sendo assim, as funes de similaridade so componentes essenciais em todo esquema de CBIR,
199
reproduzir o mesmo protocolo, sendo tambm capazes de avaliar os padres escolhidos para o caso em questo [2]. As fases de uma RS, seguindo os modelos propostos em [2] e [11], podem ser sintetizadas em Planejamento, na qual definido o problema de pesquisa, elaborado o protocolo e definidos os critrios de seleo de estudos primrios; Conduo ou Execuo, durante a qual a pesquisa bibliogrfica realizada seguindo o protocolo estabelecido; e, por fim, Anlise dos Resultados, responsvel por analisar e documentar os resultados da pesquisa e as concluses obtidas por meio deles. As principais vantagens de uma RS, quando comparada s revises de literatura tradicionais, residem em dois aspectos importantes. O primeiro que uma RS providencia informaes sobre o tema de interesse por meio de uma grande gama de opes e mtodos empricos, gerando, assim, resultados consistentes a respeito da eficincia das tcnicas empregadas nos estudos analisados. O segundo que ela permite uma anlise conjunta dos estudos primrios e dos seus resultados, sendo capaz de detectar resultados que estudos menores no conseguem detectar [11]. As prximas sees descrevem o protocolo, a conduo e os resultados obtidos com esta RS.
que o objetivo foi recuperar trabalhos publicados em ingls ou em portugus. Os trabalhos escritos em portugus consistem essencialmente em teses e dissertaes de origem brasileira. Pr-Avaliao dos Trabalhos: dos trabalhos retornados em cada fonte de pesquisa foram lidos os resumos e uma primeira avaliao de cada um foi realizada. Por meio dos critrios de incluso e de excluso, relatados adiante, trabalhos relevantes foram pr-selecionados para uma anlise mais detalhada. Avaliao Detalhada: os trabalhos pr-selecionados foram analisados individualmente, sendo mais uma vez submetidos aos critrios de incluso e excluso. Dos trabalhos pr-selecionados, foram includos para a elaborao de formulrios de extrao de dados todos os que apresentam alguma abordagem de avaliao de funes de similaridade. Os que no apresentam tal abordagem, mas citam ou utilizam diferentes funes de similaridade, foram devidamente documentados e arquivados, pois devero ser teis na etapa de trabalho que se segue RS descrita neste artigo. Critrios de Incluso de Estudos Primrios: devem ser trabalhos (i) publicados e disponveis integralmente em bases de dados cientficas ou em verses impressas; (ii) recentes (publicados a partir de 2005), porm que j possuam aprovao pela comunidade cientfica; (iii) que abordem conceitos e experimentos relativos avaliao do desempenho de funes de similaridade ou, pelo menos, aplicaes das mesmas nos contextos de CBIR ou de Recuperao da Informao. Critrios de Excluso de Estudos Primrios: foram desconsiderados trabalhos que (i) no esto disponveis integralmente nas fontes pesquisadas; (ii) so anteriores a 2005 ou no abordam conceitos clssicos relacionados rea de interesse desta RS; (iii) no abordam funes de similaridade; (iv) somente abordam funes classicamente utilizadas na mensurao de similaridade; (v) abordam funes de similaridade no aplicveis a CBIR ou aplicveis somente ao caso especfico trabalhado pelos autores; (vi) abordam funes de similaridade no aplicveis diretamente aos vetores de caractersticas, ou seja, aqueles que utilizam tcnicas que extrapolam o escopo desta RS; (vii) abordam funes de similaridade fora dos contextos de CBIR e de Recuperao da Informao (ou com foco principal diferente destes), sendo que as mesmas funes de similaridade utilizadas pelos autores ou no so aplicveis a CBIR ou tambm foram recuperadas junto a outros trabalhos nesta RS; (viii) no detalham experimentos prticos realizados para testar as suas hipteses. Fontes de Pesquisa: foram selecionadas para pesquisa importantes bases de dados cientficos disponveis na web. So elas: IEEEXplore Digital Library (IEEE), ISI Web of Knowledge (ISIWK), ACM Digital Library (ACM), Scopus e o Banco de Teses da USP (Teses USP). Vale
200
ressaltar que as bases ISI Web of Knowledge e Scopus retornam trabalhos provenientes de diferentes publicaes e de diversas outras bases cientficas. Palavras-chaves: procurou-se utilizar a seguinte composio de termos para a realizao das consultas nas fontes de pesquisa: (evaluation ou assessing) e (similarity function ou distance function ou similarity measure ou distance measure) e (content based image retrieval ou content based retrieval). De acordo com as especificidades dos sistemas de busca de cada base de dados e com a quantidade de trabalhos relevantes retornados, as palavras-chaves utilizadas foram combinadas e adaptadas para cada caso. As palavraschaves utilizadas para cada base foram: IEEE: ((similarity) OR (distance)) AND ((function) OR (measure)) AND (content based retrieval). ISIWK: (evaluation or assessing) and ("similarity function" or "distance function" or "similarity measure" or "distance measure") and ("content based retrieval" or "content based image retrieval"). ACM: ("content based retrieval" or "content based image retrieval") and (Keywords:"similarity function" OR Keywords:"distance function" OR Keywords:"similarity measure" OR Keywords:"distance measure"). Scopus: (evaluation OR assessing) AND ("similarity function" OR "distance function" OR "similarity measure") AND ("content based retrieval"). Teses USP: recuperao baseada em contedo. A prxima seo descreve e discute os resultados obtidos com a conduo da RS, que seguiu o protocolo acima relatado.
4. Resultados e discusses
As buscas nas fontes de pesquisa foram realizadas entre 22 de maro e 5 de abril de 2010. Ao todo, foram recuperados 73 trabalhos distintos, sendo que destes foram includos 19 trabalhos (26%), listados na Tabela 1. Uma observao importante que foram recuperadas tambm, na base Teses USP, as duas dissertaes que geraram os artigos [4] e [18], e a tese que gerou o artigo [8]. Somente os artigos aparecem na tabela; as dissertaes e a tese foram devidamente arquivadas para consultas futuras. Os trabalhos includos foram classificados em trabalhos que avaliam funes de similaridade (FS) ou trabalhos que no avaliam tais funes. Os trabalhos que no avaliam funes de similaridade sero utilizados como referncias para uma catalogao de funes de similaridade a serem implementadas e utilizadas nas prximas etapas deste trabalho. Alm disso, ajudaro a inferir resultados a respeito da utilizao de funes de similaridade em Recuperao Baseada em Contedo. J os trabalhos que avaliam funes de similaridade,
alm de contriburem com os objetivos anteriormente mencionados, tambm serviro como referncias para mtodos de avaliao dessas funes. A anlise da coluna Funes utilizadas / citadas da Tabela 1 nos permite verificar que as funes mais mencionadas / utilizadas, de acordo com os trabalhos recuperados por esta RS, so as distncias da Famlia Minkowski ou Lp (que compreende as distncias Manhattan, Euclidiana e Chebychev, mencionadas explicitamente em 73,7%, 73,7% e 42,1% dos trabalhos includos, respectivamente). A distncia L3, tambm integrante desta famlia, foi utilizada em 10,5% dos trabalhos. Em [19], ela a funo utilizada pelos autores para o desenvolvimento da abordagem. Nesse artigo, a famlia Minkowski tambm mencionada genericamente. As demais funes de similaridade que obtiveram maior nmero de citaes ou utilizaes nos trabalhos includos foram as distncias Canberra e Mahalanobis, a Divergncia de Jeffrey e o Valor Estatstico 2, com citaes em 42,1%, 21%, 21% e 21% dos trabalhos, respectivamente. Uma importante anlise que se pode fazer que, dos 19 trabalhos includos, 63,2% se propuseram a comparar o desempenho das funes de similaridade, seja para indicar qual a melhor opo para cada caso estudado, seja para comprovar a eficcia das suas propostas com funes distintas. Para avaliar e comparar o desempenho de diferentes funes de similaridade, os trabalhos [4], [6], [8], [12], [15], [17], [18] e [20] 66,7% dos 12 que avaliam utilizaram as curvas de Preciso versus Revocao. O trabalho [17] utilizou tambm uma segunda abordagem denominada Matrizes de Confuso. O artigo [7] prope indicadores de desempenho, que medem a distribuio dos objetos recuperados no espao de distncia, para comparar as funes. Os trabalhos [14] e [19] comparam as funes considerando suas respectivas acurcias na recuperao. Por fim, o artigo [9] tabula os desempenhos de cada funo para cada caso especfico abordado. interessante observar tambm que, dos 7 trabalhos includos que no comparam os desempenhos de funes de similaridade distintas, 57,1% tambm utilizam as curvas de Preciso versus Revocao para avaliar suas abordagens. So eles: [1], [3], [13] e [24]. O artigo [23] uma reviso de mtodos e tcnicas aplicados em recuperao baseada em contedo de modelos 3D; os autores citam que essas curvas representam a forma mais popular de se avaliar medidas de similaridade. Dois trabalhos, [4] e [7], se destacam na lista de trabalhos includos que avaliam funes de similaridade. Isto porque esses trabalhos possuem como objetivo principal realizar comparaes entre tais funes, proporcionando colaboraes para melhores escolhas de funes de similaridade, quando do desenvolvimento e uso de sistemas de recuperao por contedo.
201
Em [4], se compara o desempenho de combinaes entre extratores de caractersticas e funes de similaridade, buscando-se melhor integrao entre esses componentes. Em [7], so catalogadas e avaliadas 37 funes de similaridade levantadas em trabalhos de diversas reas do conhecimento. Uma observao interessante que se pode fazer que foram recuperados trabalhos que propem novas funes de similaridade para uso em CBIR e em recuperao de
contedo multimdia. Em [8], os autores definem duas novas famlias de funes de similaridade baseadas na interao entre os atributos (caractersticas das imagens) para uso em CBIR. Em [10], os pesquisadores definem a Distncia Avanada de Hausdorff, combinao entre a Distncia de Hausdorff e o Modelo Booleano. E o trabalho [12] apresenta a Distncia Trigonomtrica, uma nova funo de similaridade que tambm pode ser aplicada em sistemas de CBIR.
[1] [3] [4] [5] [6] [7] [8] [9] [10] [12] [13] [14] [15]
Sim
Sim
Sim
202
A Tabela 2 apresenta um checklist dos trabalhos recuperados que avaliam funes de similaridade, ressaltando as principais caractersticas neles encontradas. Uma ltima anlise que deve ser mencionada que, dos 19 trabalhos includos, 73,7% aplicaram suas abordagens utilizando imagens. Desses 73,7%, 64,3% utilizaram imagens mdicas para os testes. Os artigos [10] e [14] trabalharam com vdeos; o artigo [19] com MPEG7; o [24] com textos (recuperao por contedo); e, por fim, o artigo [23] tem como objeto de estudo modelos 3D, mas no realiza testes, pois trata-se de uma reviso de conceitos e tcnicas. Tabela 2. Checklist dos trabalhos que avaliam funes de similaridade.
Tpicos [4] [6] [7] [8] [9] [12] [14] [15] [17] [18] [19] [20] O objetivo principal avaliar FS Prope novas tcnicas de avaliao de FS Apresenta novas abordagens com relao s FS
como vdeos e textos. As prximas etapas deste trabalho consistem em catalogar e implementar diversas funes de similaridade, baseando-se nos trabalhos recuperados com esta RS. O objetivo realizar estudos de caso, conduzindo testes com diversas funes de similaridade, a fim de avaliar o desempenho de cada uma em diferentes contextos de CBIR. Inicialmente, pretende-se conduzir casos de teste sobre domnios de imagens mdicas e de imagens retornadas por softwares de sadas grficas, visando colaborao com um projeto de teste de software em desenvolvimento. O projeto mencionado tem o objetivo de definir uma estrutura completa de teste de software, utilizando CBIR, para programas com sadas grficas. fato que, quanto mais precisos forem os resultados da comparao entre a sada gerada por um programa em teste e o conjunto de imagens que representam as sadas esperadas pelo testador, mais eficiente poder ser o sistema de teste [16]. Sendo assim, uma das contribuies deste trabalho consistir na obteno de resultados mais efetivos no mbito da estrutura de teste mencionada. Seus resultados contribuiro, ainda, com diversos outros trabalhos que utilizam CBIR e desejam utilizar critrios mais eficientes na escolha da funo de similaridade mais adequada para cada caso.
6. Agradecimentos
Fundao de Amparo Pesquisa do Estado de So Paulo (FAPESP) pelo apoio financeiro concedido para a realizao deste trabalho.
5. Concluses
Este artigo apresentou a conduo e os resultados de uma Reviso Sistemtica, conduzida com o objetivo de apresentar o estado da arte em relao avaliao de funes de similaridade aplicadas a CBIR. Por meio da metodologia formal que uma RS exige, buscou-se em importantes fontes de dados cientficos trabalhos que abordassem o assunto. Formulrios de conduo de pesquisa e de extrao de informaes foram preenchidos, a fim de se obter evidncias consistentes a respeito dos rumos tomados nesta rea de pesquisa. Os resultados mostram que diversos autores tm se preocupado em realizar anlises mais profundas e detalhadas, quando da aplicao de funes de similaridade em sistemas de Recuperao Baseada em Contedo. Alm disso, ficou claro que o mtodo mais utilizado de avaliao do desempenho das funes de similaridade a comparao entre as curvas de Preciso versus Revocao. Entretanto, existem autores que preferem utilizar seus prprios mtodos de avaliao, como o caso em [7]. A maioria dos trabalhos includos abordam CBIR, porm, foram recuperados tambm trabalhos que abordam recuperao por contedo de outros tipos de objetos, tais
7. Referncias
[1] Balan, A. G. R. Mtodos Adaptativos de Segmentao Aplicados Recuperao de Imagens por Contedo. 2007. Tese (Doutorado) ICMC-USP, 2007. [2] Biolchini, J., Mian, P. G., Natali, A. C. C. e Travassos, G. H. Systematic Review in Software Engineering. Technical Report RT-ES 679/05, System Engineering and Computer Science Dept., COOPE/UFRJ, 2005. [3] Bueno, R. Tratamento do Tempo e Dinamicidade em Dados Representados em Espaos Mtricos. 2009. Tese (Doutorado) ICMC-USP, 2009. [4] Bugatti, P. H., Traina, A. J. M. e Traina Jr., C. Assessing the Best Integration between Distance-Function and Image-Feature to Answer Similarity Queries. In: Proceedings of the 2008 ACM Symposium on Applied Computing, Fortaleza CE, Brasil, p. 1225-1230.
203
[5] Carit, E. C. Sistema de Gerenciamento de Imagens para Ambiente Hospitalar com Suporte a Recuperao de Imagens Baseada em Contedo. 2006. Tese (Doutorado) FMRP-USP, 2006. [6] Dong-cheng, S., Lan, X. e Ling-yan, H. Image Retrieval Using Both Color and Texture Features. The Journal of China Universities of Posts and Telecommunications, v. 14, Supplement 1, p. 94-99, out. 2007. [7] Eidenberger, H. Evaluation and Analysis of Similarity Measures for Content-based Visual Information Retrieval. Journal Multimedia Systems, v. 12, n. 2, p. 71-87, out. 2006. [8] Felipe, J. C., Marques, P. M., Balan, A. G., Traina Jr., C. e Traina, A. J. Comparing Images with Distance Functions Based on Attribute Interaction. In: Proceedings of the 2006 ACM Symposium on Applied Computing, Dijon, France, 2006, p. 1398-1399. [9] Gal, R., Shamir, A. e Cohen-Or, D. Pose-Oblivious Shape Signature. IEEE Transactions on Visualization and Computer Graphics, v. 13, n. 2, p. 261-271, mar./abr. 2007. [10] Gao, Y. e Dai, Q. Shot-based Similarity Measure for Content-based Video Summarization. In: Proceedings of the 15th IEEE International Conference on Image Processing, 2008, p. 2512-2515. [11] Kitchenham, B. Procedures for Performing Systematic Reviews, Joint Technical Report, Keele University and Empirical Software Engineering National ICT Australia Ltd., 2004. [12] Li, Z., Hou, K. e Li, H. Similarity Measurement Based on Trigonometric Function Distance. In: Proceedings of the 1st International Symposium on Pervasive Computing and Applications, Urumqi, 2006, p. 227-231. [13] Marques, J. Realimentao de Relevncia para Recuperao por Contedo de Imagens Mdicas Visando Diminuir a Descontinuidade Semntica. 2006. Dissertao (Mestrado) ICMC-USP, 2006. [14] Meng W., Hua, X., Hong, R., Tang, J., Qi, G. e Song, Y. Unified Video Annotation via Multigraph Learning. IEEE Transactions on Circuits and Systems for Video Technology, v. 19, n. 5, p. 733-746, mai. 2009. [15] Nguyen, G. P. e Worring, M. Optimization of
Interactive Visual-similarity-based Search. ACM Transactions on Multimedia Computing, Communications and Applications, v. 4, n. 1, p. 7:1-7:23, jan. 2008. [16] Oliveira, R. A. P., Delamaro, M. E. e Nunes, F. L. S. O-Fim Oracle for Images. In: XXIII Simpsio Brasileiro de Engenharia de Software (XVI Seo de Ferramentas), Fortaleza CE, 2009, p. 1-6. [17] Paris, A. C. Anlise da Eficincia de Recuperao por Contedo de Imagens Mdicas, Utilizando Extratores de Textura Baseados em Wavelet e Wavelet Packet. 2008. Dissertao (Mestrado) EESC-USP, 2008. [18] Ponciano-Silva, M., Traina, A. J. M., AzevedoMarques, P. M., Felipe, J. C. e Traina Jr., C. Including the Perceptual Parameter to Tune the Retrieval Ability of Pulmonary CBIR Systems. In: Proceedings of the 22nd IEEE International Symposium on Computer-Based Medical Systems, 2009, p. 1-8, 2-5. [19] Qi, W. e Li, X. Similarity Measure Based on Membership Function. In: Proceedings of the IEEE International Conference on Intelligent Computing and Intelligent Systems, 2009, p. 274-278. [20] Ribeiro, M. X. Suporte a Sistemas de Auxlio ao Diagnstico e de Recuperao de Imagens por Contedo Usando Minerao de Regras de Associao. 2008. Tese (Doutorado) ICMC-USP, 2008. [21] Santini, S. e Jain, R. Similarity Measures, IEEE Transactions on Pattern Analysis and Machine Intelligence, v. 21, n. 9, set. 1999. [22] Torres, R. S., Zegarra, J. A. M., Santos, J. A., Ferreira, C. D., Penatti, O. A. B., Andal, F., e Almeida, J. Recuperao de Imagens: Desafios e Novos Rumos, Anais do XXVIII Congresso da SBC Seminrio Integrado de Software e Hardware (SEMISH), Belm PA, 2008, p. 223-237. [23] Yang, Y., Lin, H. e Zhang, Y. Content-Based 3-D Model Retrieval: A Survey. IEEE Transactions on Systems, Man, and Cybernetics, v. 37, n. 6, p. 1081-1098, nov. 2007. [24] Yu, G., Li, X., Bao, Y. e Wang, D. Evaluating Document-to-Document Relevance Based on Document Language Model: Modeling, Implementation and Performance Evaluation. In: Lecture Notes in Computer Science, v. 3406, p. 593603, Springer-Verlag Berlin Heidelberg, jan. 2005.
204