Anda di halaman 1dari 39

Introduo Recuperao da

Informao (RI)

Renato Fernandes Corra


Recuperao da Informao

DCI-UFPE 1
2

Roteiro
Problemas\Contexto\Motivao
Definio
Sistema de Recuperao de Informao (SRI)
Exemplos de SRI
3

Problemas\Contexto
Problema de RI:
Necessidade de condensar e
organizar a informao de acordo com
necessidades e objetivos para
recuperao posterior.(OTLET, 1934)
A tarefa massiva de tornar mais
acessvel, um acervo crescente de
conhecimento. (VANNEVAR BUSH,
1945)
4

Problemas\Contexto
Problemas na RI:
Exploso informacional acervo
crescente de documentos informativos.
Sobrecarga de informao muitos
documentos retornados como resultado de
uma busca.
5

Contexto\Motivao
Motivaes:
Importncia estratgica da
informao e do conhecimento
Informao como recurso estratgico
para profissionais, empresas, governos,
sociedades, etc.
6

Contexto\Motivao
Motivaes:
Documentos digitais de contedo processvel por
computador (desde 1980)
Web como repositrio mundial de informao
digital (desde 1990)
7

Exerccios
Descreva o problema de pesquisa da rea de
recuperao de informao.
Cite dois problemas presentes no processo de
recuperao de informao.
Cite motivos para pesquisar o processo de
recuperao de informao.
8

Definio
Calvin MOOERS (1951) cunhou a rea de
pesquisa (ou disciplina) denominada
recuperao de informao (do ingls
information retrieval), destacando que
ela:
"engloba os aspectos intelectuais da
descrio de informaes e suas
especificidades para a busca, alm de quaisquer
sistemas, tcnicas ou mquinas empregados
para o desempenho da operao.
9

Definio
Certamente, a recuperao da
informao no foi a nica responsvel
pelo desenvolvimento da CI [Cincia da
Informao], mas pode ser considerada como
principal; ao longo do tempo, a CI
ultrapassou a recuperao da informao,
mas os problemas principais tiveram sua
origem a e ainda constituem seu ncleo.
SARACEVIC (1991)
10

Definio
Buckland(1991) define informao como
coisa como: aquilo que visto como
informativo, pontencial para o processo de
informar, expresso, descrito ou
representado em algum modo fsico.
Fsico no mais aplicvel atualmente, mas sim
modo lgico (manipulvel e legvel por
computador), dada a natureza lgica, abstrata e
numrica da informao digital.
Este o sentido de informao que os
Sistemas de Recuperao de
Informao (SRI) podem lidar diretamente.
11

Definio
Recuperao de Informao uma rea de pesquisa
e desenvolvimento que
investiga mtodos e tcnicas
para a representao, a organizao, o
armazenamento, a busca e a recuperao de itens
de informao

Com objetivo principal de


facilitar o acesso a documentos (itens de informao)
relevantes necessidade de informao do usurio
Geralmente representada atravs de expresses
de busca (consultas baseadas em palavras-chaves)
12

Recuperao de Informao
O processo de recuperao de
informao uma tarefa tpica onde:
Dados
Um corpus de documentos e
Uma expresso de busca do usurio
O objetivo encontrar
Um conjunto (ordenado) de documentos que
so relevantes para a consulta
Processso de RI: 13

Elementos de um Sistemas de RI

1
Corpus de
documentos

3
2
Expresso Sistema de RI
de busca

1. Doc1
2. Doc2
Usurio Documentos 3. Doc3
4 ordenados .
.
14

Sistemas de RI
Um sistema de recuperao de informao (SRI) pode ser visto
como
a parte do sistema de informao responsvel pelo
armazenamento ordenado dos documentos em base de
dados,
e sua posterior recuperao

para responder a expresso de busca usurio.

Etapas principais na construo do SRI:


Aquisio (seleo) dos documentos

Preparao dos documentos

Indexao dos documentos


Armazenamento
Recuperao
Busca (casamento com a representao da expresso de busca
do usurio)
Ordenamento dos documentos recuperados (do ingls ranking)
15

Exerccios
Defina a rea de pesquisa recuperao de
informao.
Defina o processo de recuperao de informao.
Defina o que um sistema de recuperao de
informao.
Buscando caracterizar o google como um sistema de
recuperao de informao, especifique: a) corpus;
b) usurios; c) expresso de busca d) resultado da
busca.
16
Modelos de Recuperao de
Informao
Como funciona os Sistemas de Recuperao de
Informao?

Necessidade de
Armazenamento Informao
do ndice
Representao Representao Consulta
Documentos

Sistema de Resultado Usurio


Recuperao de Informao
Funo de busca
Casamento, Ordenao
Modelos de Recuperao de Informao
Os SRIs adotam modelos de recuperao de
informao que definem principalmente:
A representao dos documentos
A viso lgica dos documentos, sua representao no
sistema
A representao das expresses de busca dos
usurios
A viso lgica da expresso de busca ou consulta, sua
representao no sistema
A funo de busca: como as duas representaes
so comparadas, e como ordenar os documentos que
casam (a lista de resultado).
Alm do modo de operao os modelos definem a
eficincia dos SRIs.
A tarefa do usurio

Diante do SRI o usurio pode realizar duas


tarefas:
Busca ou Recuperao (do ingls Retrieval)

Navegao (do ingls Browsing)

Dependendo da tarefa a ser realizada pelo


usurio, um modelo computacional de
recuperao de informao deve ser
empregado na construo do SRI.
Tarefas do usurio: Navegao
Navegao

Embrapa - Infoteca

MTTD-UFPE
Tarefas do usurio: Recuperao
(Busca)
22

Exerccios
O que o modelo computacional de recuperao de
informao define nos sistemas de recuperao de
inofrmao?
Quais as tarefas tpicas que o usurio pode realizar
atravs da interface de um sistema de recuperao
de informao na especificao de uma expresso de
busca?
Exemplos de Sistemas de 23

Recuperao de Informao
Catlogo em linha de acesso pblico
Mecanismos de busca
Servios de busca em linha
Sistemas de gerenciamento de documentos

Sistemas de Filtragem de Informao


Sistemas de Comrcio Eletrnico

Sistemas de fluxo de vdeo/udio


Catlogo em linha de acesso pblico
(OPAC)
Sistemas que recuperam informao em
bases de dados catalogrficos de bibliotecas.
Exemplo:
25

Mecanismos de Busca

Engenho de Busca

Usurio Servidor de Consultas

2
Consulta 1 Recuperador

Browser Resposta 4 3
Ordenador
Base de
ndices
Motor de
Indexao Indexador

Representao dos Docs


Spider
Docs Pr-Processador
Aquisio
Web
Servios de busca em linha
Sistemas que recuperam informao em
bases de dados bibliogrficos ou de texto
completo.
Exemplos:
Sistemas de gerenciamento de
documentos
Sistemas que gerenciam verses e recuperam
informao em um corpus de documentos digitais.
Exemplos:
Softwares Proprietrios da IBM (FileNet),
Xerox(DocuShare), Microsoft (SharePoint) e
Oracle.
Softwares Livres
Alfresco
KnowledgeTree
Main//Pyrus DMS
Nuxeo
OpenKM
Archivista
Sistemas de Filtragem de Informao
Sistemas que filtram a informao recuperada
de acordo com o interesse do usurio

Usurio Servidor News

Artigos Perfil do
Indexados usurio

Engenho de
Busca Internet
29

Sistemas de Extrao de Informao

Sistemas capazes de extrair de documentos


relevantes apenas a informao requerida
A informao extrada pode ser apresentada
ao usurio e/ou armazenada em BDs.
Pgina de Hotel
Template
Nome:
Sistema de EI End.:
Fone:
Fax:
Preos:
BD
30

Interface de SRI: Recursos de Busca

Autocompletar
31

Interface de SRI: Recursos de Busca


Motivos para uso do Autocompletar (sugesto
de busca):
Os usurios da web esto familiarizados com o
autocompletar no endereo na barra dos
navegadores
Reduz o nmero de letras digitadas permitindo
uma entrada rpida da consulta
Previne erros de digitao
Fornece um retorno ao usurio sobre a validade
da consulta digitada
Revela assuntos existentes no ndice que casam
com o que o usurio est digitando
Requisito: lista de expresses de busca
32

Interface de SRI: Recursos de Busca

Hit Highlights
33

Interface de SRI: Recursos de Busca


Motivos para uso de Hit Highlights (destaque
de ocorrncia):
Explica para o usurio porque o documento foi
retornado como resultado da busca
Permite visualizar no extrato do contedo do
documento (snippet) trechos que contm os
termos buscados mais prximos ou em maior
frequncia.
Requisito: o ndice deve guardar a posio de
ocorrncia das palavras ou de suas
representaes (radical, lemma).
34

Interface de SRI: Recursos de Busca

Outros recursos de busca:


Voc quis dizer? (Did you mean?) til na
formulao da consulta, permitindo
correo de erros ortogrficos na consulta
Operadores lgicos booleanos: AND, OR,
NOT, ANDNOT.
Operadores de obrigatoriedade de
ocorrncia (+,-)
Operadores de busca em campo,
geralmente escritos no formato:
nomedocampo: expresso de busca
35

Interface de SRI: Recursos de Busca


Outros recursos de busca:
Operador de busca por radical (*) til na
formulao da consulta, permitindo
casamento com variaes sintticas de um
radical de palavra que denota o mesmo
conceito.
Operador de caracter coringa (?)
Operador de busca por frase () til na
formulao da consulta, permitindo casamento
com uma sequncia de palavras que definem
um conceito ou contexto.
Operador de proximidade de palavras (NEAR,
WITH)
Interface de SRI: Recursos de 36

filtragem

Busca Facetada
Interface de SRI: Recursos de 37

filtragem
Motivos para uso da Busca Facetada:
Fornece meios para os usurios navegarem pelo
catlogo, ou discriminarem os resultados de busca
atravs de facetas (categorias)
Encoraja a explorao do catlogo de forma
rpida atravs da seleo de facetas
Requisito: Categorias definidas e catalogadas
no momento da indexao dos documentos
38

Exerccio
Escolha um SRI e descreva:
A. URL
B. corpus
C. usurios
D. Resultado da busca
E. Recursos de busca
F. Recursos de filtragem
39

Referncias
FERNEDA, E. Introduo aos Modelos
Computacionais de Recuperao de
Informao. Rio de Janeiro: Editora Cincia
Moderna Ltda. 2012.
Captulos 1 e 2
BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperao
de informao: conceitos e tecnologia das
mquinas de busca. 2. ed. Porto Alegre: Bookman,
2013
SARACEVIC, T. Cincia da informao: origem,
evoluo e relaes. Perspec. Ci. Inf., Belo
Horizonte, v. 1, n. 1, p. 41-62, jan./jun. 1996

Anda mungkin juga menyukai