59 Webcrawler

web crawler_
Web crawler em Java

coleta e filtragem de
contedo da Web
Conhea o conceito de web crawler e aprenda como criar um

agente especializado utilizando tecnologias
Java, HttpComponents e JAX-RS
ado o volume
atual de dados
existentes na Web,
um processo automtico e metdico de indexao
de contedo se
faz extremamente necessrio.
E nesse
cenrio
que o Web
crawler se faz
presente buscando, filtrando e muitas vezes persistindo
contedo. Um dos mais poderosos web
crawlers conhecidos o googlebot, o
crawler web da Google, ele responsvel por vasculhar a web, procurando
por novas pginas para indexar e analisar se as pginas j existentes foram
devidamente atualizadas.
Um Web crawler, que tambm conhecido como web spider ou web robot,
e um agente de software utilizado para
automatizar pesquisa, captura e extrao
de dados. Trafegados geralmente em protocolos HTTP
junto com o modelo TCP/IP, a maioria dos robots desenvolvidos so voltados para a web tradicional onde
documentos html conectados por hyperlinks, tags e palavras chave so usados para rastrear e atender necessidades especficas como: download de imagens e
arquivos, validao
auto-
/ 42
mtica de cdigos, minerao de endereos de e-mail,

coleta de contedos especficos para cotao de preos
de um determinado produto ou servio e tambm pode
ser desenvolvido para agregar dados de diversas fontes
da internet podendo persistir essas informaes em um
banco de dados.
Esses agentes no esto limitados a uma linguagem
especfica, na verdade, desde que seja possvel extrair
e aplicar expresses regulares em cima dos contedos
obtidos, qualquer linguagem pode ser utilizada para a
implementao de web crawlers. No entanto, agora, no
estamos levando em considerao a viabilidade de se
implementar um crawler em cada linguagem. Cada uma
possui suas particularidades, o que pode dificultar ou
facilitar o desenvolvimento. Dito isso, para este artigo o
Java foi a linguagem escolhida apenas por familiaridade
e convenincia. O que no ser um problema, j que os
princpios gerais para qualquer linguagem estaro presentes.
O problema da informao
Para entendermos o porqu da prtica do crawling, precisamos falar um pouco sobre o desenvolvimento da internet. No iremos abordar a questo
de forma tcnica, pois o que importante no tanto o como, mas sim o quanto.
De acordo com a consultoria Jess3, o nmero de
usurios da rede em 1995 j era pouca coisa maior
que 45 milhes de pessoas e, de acordo com a mesma
consultoria, o nmero em setembro de 2009 j era de
1,73 bilhes de pessoas. De qualquer ponto de vista
esse um nmero impressionante, mas que no diz
muita coisa sozinho. No entanto, se juntarmos a ele
o nmero de informao disponvel atravs da web
teremos um problema real.
Uma pesquisa realizada pela University of Southern California intitulada The Worlds Technological Capacity to Store, Communicate, and Compute
Information, chegou a concluso que, em 2002, a
Rodrigo Ribeiro | rdccr05@gmail.com

Atua h nove anos com anlise e desenvolvimento de sistemas. Bacharel em Sistemas de Informao e Especialista em Desenvolvimento de Sistemas Web pelo IESAM. Possui certificaes internacionais SCJP e OCWCD. Atualmente trabalha como consultor Java
e PHP na Discover Technology.
Luderson Costa | luderson@gmail.com

Atua h um ano como desenvolvedor Objective-C e PHP. Cursou at o terceiro ano de Cincias da Computao pela UNIC, MBA em
mercado de capitais. Atualmente trabalha como consultor PHP/Magento na Discover Technology.
Neste artigo abordaremos um pouco sobre a problemtica que nos

leva a pensar em indexadores automticos, os principais conceitos
sobre o que um Web crawler, as tecnologias utilizadas como exemplo e sua aplicao prtica, num elemento especializado que far a
extrao de algumas informaes livres de usurios do github.com,
tais como: lista de repositrios, foto do usurio, urls para clonagem
de projetos e download dos arquivos do repositrio indexado.
quantidade de informao armazenada digitalmente
superou em quantidade toda a informao armazenada de forma analgica. E como a informao analgica, a informao armazenada de forma digital
precisa ser indexada para facilitar seu consumo, e
a que entra o web crawling.
O Crawling
Dada a quantidade de informaes disponveis

na Web, impossvel fazer uma indexao de forma
manual, como se faz frequentemente em bibliotecas,
portanto, esse processo deve ser feito de forma automatizada e sistemtica. O agente responsvel por
essa tarefa normalmente chamado de Crawler, da
vem a denominao da ao que esse agente realiza,
o crawling.
O crawling no est, necessariamente, ligado
Web, no entanto nela que se faz o maior uso dele,
devido aos motivos j expostos.
A estrutura bsica de funcionamento de um crawler no muito complexa, apesar do mesmo no
poder ser dito sobre sua implementao. Veja um
modelo da estrutura bsica de um crawler na figura 1.
As etapas giram em torno de uma requisio de
contedo, extrao da informao necessria, processo de indexao e persistncia. A etapa de requisio e extrao inerente a qualquer processo de
crawling, independentemente do objetivo e tecnologia utilizada. J a indexao e persistncia podem
ou no ocorrer, e quando ocorrem normalmente so
aplicados de forma muito especfica, dependendo

dos objetivos.
Requisies
Como dissemos anteriormente o crawling no

est amarrado ao contedo web, ele pode atuar sobre
diversos tipos de fontes. Desse modo ele no pode
estar restrito por um protocolo especfico, como o
Contedo
Crawler
Indexao
Persistncia
Figura 1 . Fluxo de um Crawler.
43 \
HTTP. verdade, ento, que se pode trabalhar em

cima de SMTP, FTP, entre outros.
Atravs do protocolo escolhido o agente faz, ento, uma requisio fonte de dados, que acaba por
retornar o contedo desejado, que ser trabalhado
para a extrao das informaes. O protocolo utilizado neste artigo ser explicado de forma mais tcnica
mais adiante.
Extrao atravs de Expresses Regulares
H vrias formas de se extrair dados de um documento. No entanto, ao lidar com contedo dinmico provvel que aplicar expresses regulares seja a
melhor forma.
Expresses regulares so padres que lhe permitem localizar de forma flexvel alguma sequncia de
caracteres. Isso significa que, com um mesmo padro,
possvel voc localizar uma sequncia de caracteres
especfica em qualquer lugar de um documento.
Por exemplo, possvel localizar qualquer ocorrncia da sequncia car dentro de um documento
independentemente de fazer parte das palavras carro, carreta, corretor ou mesmo sozinha car.
Desse modo possvel resgatar qualquer dado que
seja necessrio e process-lo conforme suas necessidades. Outro exemplo, mais prtico, a validao de
data, vejamos abaixo:
Listagem 1. Expresso regular usada para validao

de data.
^([1-9]|0[1-9]|[1,2][0-9]|3[0,1])/([1-9]|1[0,1,2])/\d{4}$
Esse padro valida qualquer data no formato

99/99/9999, desse modo possvel confirmar se
algum campo de data foi digitado corretamente, ou
se existe alguma data no contedo de um documento.
A correta aplicao das expresses regulares ser
determinante na eficincia de um Crawler, tanto em
sua abrangncia quanto no retorno do contedo procurado.
Questes Legais
As questes de legalidade da prtica do web crawling so, ainda, obscuras. E aqui deve ficar claro o
que foi dito, isso vale principalmente para o contedo
proveniente da Web. J que pode existir um crawler
varrendo a intranet de uma empresa, o que mantm
os assuntos referentes ao acesso ao contedo, nesse
caso, restrito a uma esfera no pblica.
Nas questes do contedo proveniente da internet, a legislao prpria de cada pas, o que aumenta muito as variantes. De qualquer forma possvel
dividir essas questes em ticas e de lei positivada.
Nessa diviso possvel encontrar, pelo menos,
quatro questes importantes: servio, custo, privacidade e copyright.
/ 44
Servio e custos esto mais ligados tica. Crawlers podem afetar a qualidade de repostas dos servidores ao fazerem vrias requisies em um curto espao de tempo. Isso afeta, ou pode afetar, a qualidade
do servio prestado aos consumidores finais, os usurios, deixando-os mais lentos. Eles podem aumentar
tambm o consumo de banda, o que pode gerar custos extras aos proprietrios de pginas.
A privacidade talvez a questo mais difcil de
se definir. Normalmente o que est disponvel na internet pblico. Qual a diferena entre acessar uma
pgina atravs do navegador ou atravs de um programa que varre seu contedo? Aqui, talvez, o maior
problema o que se faz depois com a informao
obtida. A prtica de spam talvez exemplifique bem
esse problema. E-mails podem ser buscados atravs
de crawlers especficos para a funo e depois usados
em listas de malas diretas.
J o copyright o maior suporte legal regulamentao do web crawling. Uma prtica comum aos
crawlers a cpia e armazenamento de contedo com
direitos reservados sem a permisso do proprietrio.
Para aqueles que querem evitar o mximo de problemas legais e morais, uma recomendao seguir
as determinaes do arquivo robots.txt. Esse protocolo usado largamente desde 1994 impe algumas
regras para o clawling so seu domnio, determinando
o que pode ou no ser acessado. Por exemplo:
User-agent *
Disallow /teste/
Nesse caso no ser permitido fazer a leitura do

contedo do diretrio teste, e qualquer um de seus
subdiretrios.
No entanto bom lembrar que a leitura e obedincia aos parmetros desse arquivo no obrigatria,
apenas uma boa prtica para aqueles que desenvolvem crawlers.
Programando um Web Crawler
O HTTP (Hyper-Text Transfer Protocol) talvez

o protocolo mais importante usado na World Wide
Web. Navegadores de internet, Web Services e o crescimento da computao em rede continua a expandir
o papel do HTTP, e com isso o aumento do nmero
de aplicaes que necessitem de suporte a este protocolo. A web um campo bastante interessante para
pesquisas de minerao de dados, devido a grande
quantidade de informao disponvel na internet.
Uma tcnica bastante conhecida o Data Mining,
que consiste no processo de descobrir informaes
relevantes, como padres, associaes, mudanas
e estruturas, em grandes quantidades de dados armazenados em repositrios de informao. Fazendo
uma converso para o contexto do artigo, a tcnica
utilizada seria o Web Mining, que pode se entender
como uma extenso de Data Mining aplicado a dados

da internet.
O que Web Mining?
Web Mining envolve tcnicas de recuperao de

Informao, estatstica, inteligncia articial e minerao de dados. uma maneira usada para descobrir
e extrair automaticamente dados de servios e documentos disponveis na internet, em geral, as principais tarefas de web mining so:
Busca de Documentos: a tcnica usada nessa
tarefa a de Recuperao de Informao que
consiste no processo de extrair dados a partir
de sites web se valendo do contedo de documentos HTML, navegando entre palavras chaves e tags eliminando-as e recuperando os textos contidos nessas estruturas.
Seleo e pr-processamento: o pr-processamento envolve qualquer tipo de transformao da informao obtida na busca, como, por
exemplo, corte de textos.
Generalizao: com a utilizao de tcnicas de
inteligncia artificial e minerao de dados,
possui a tarefa de descobrir de forma automtica padres de um ou entre vrios sites web.
Anlise: a anlise aplicada geralmente em todas as tarefas que consiste em validar e interpretar os padres minerados.
HttpComponents da Apache
O HttpComponents da Apache proporciona um

robusto suporte para protocolos HTTP, possui componentes com poder para construir aplicativos cliente e servidor, como navegadores web, web crawlers,
proxies HTTP, comunicao distribuda etc. Entre os
componentes destacam-se o HttpCore, que atua no
baixo nvel de transporte HTTP e que pode ser usado
para construir cliente personalizado, servios do lado
do servidor e suporte a modelo de I/O. HttpClient,
um agente com base no httpcore, compatvel com
aplicaes HTTP fornece componentes reutilizveis
para a autenticao do cliente, manter estado e gerenciamento de conexes, consumo de contedo
html etc.
O Web Crawler
Nesta fase do artigo, iremos desenrolar o desenvolvimento do web crawler, a tarefa de web mining
do nosso exemplo ser do tipo busca de documentos
e ser utilizado o componente HttpClient da Apache
com o recurso para consumo de pginas html, Expresses Regulares para a recuperao especfica da
informao e criaremos um websevice com JAX-RS
para disponibilizar os dados recuperados pelo agente de software. Sero extradas algumas informaes
livres de usurios do github.com. O agente ser responsvel por capturar o avatar, lista de repositrios,
os links para comandos git clone de projetos e a url
para download dos arquivos ZIP do repositrio indeProtocolo HTTP + JAVA
Originalmente, o Java vem com bibliotecas para xado.
trabalhar e manipular dados trafegados no protocolo
http. Seguindo as especificaes w3c para protocolos Mo na massa: Fase 1
HTTP possvel voc criar seu prprio servidor sem a
A primeira fase para a criao de um web crawler
necessidade de APIs externas. Geralmente para esse se d pela avaliao do contedo a ser extrado pelo
tipo de tarefa utiliza-se as classes URL, HTTPUrlCon- agente. Nosso primeiro passo ento analisar a pginection e Socket do pacote java.net. Pensando pelo na principal do GitHub para extrair somente os links
lado acadmico interessante aprender como se do menu de navegao. Vamos avaliar a seguinte url:
criar um servidor http, criando suas prprias classes https://github.com/.
HttpClient, conectando via sockets etc. Mas quando
o tema produtividade citado, buscar alternativas Listagem 2. Expresso regular usada para extrair
maduras no mercado a melhor opo. Atualmente contedo da home do github.
existem frameworks robustos que facilitam a intera<[^>]*?class=\(?:explore|search|features|blog)
o e manipulao de dados trafegados na web.
[^>]*?\><a[^>]href=\(.*?)>(.*?)</a></[^>]*?>
Figura 2. Pgina principal do GitHub com expresso regular de extrao sendo executada no site http://regexpal.com/.
45 \
Agora o prximo passo criar a regex para extrair contedo

especfico da pgina de usurios do github. Vamos avaliar a
prxima url: https://github.com/rdccr e extrair o avatar e o
link para os repositrios. Veja figura 3.
Mo na massa: Fase 2
Agora com as expresses regulares devidamente

criadas vamos comear a desenvolver programaticamente o web crawler. Na fase 2 iremos criar os beans
Listagem 3. Expresses regulares usadas para extrair que iro mapear os resultados capturados e o motor
de busca do crawler. Seguem abaixo os fragmentos de
o avatar e a url de repositrios do usurio github.
cdigo com a estrutura dos beans.
AVATARED: <div\\sclass=\avatared\>[^>]*?<a\\
shref=\(.*?)\
REPOSITORIES_TAB: [^<a\\shref=\].*?\\?tab=repositories
Nosso ltimo passo criar a expresso para extrair a lista
de repositrios de https://github.com/rdccr/repositories e
seus respectivos contedos. Como na figura 4.
Listagem 4. Expresses regulares usadas para extrair

a lista de repositrios e contedo de cada repositrio.
REPOSITORIES_LIST: <h3>[^>]*?<span[^>]*?>.*?</
span>[^>]*?<a\\shref=\(.*?)\>(.*?)</a>[^>]*?</h3>
DOWNLOAD_ZIP: <a\\shref=\(.*?)\[^>]*?><span[^>]*?></
span>ZIP</a>
CLONE_URL: <[^>]*?\\sclass=\(?:http_clone_url|public_
clone_url|private_clone_url)[^>]*?\>[^>]*?<a\\
shref=\(.*?)\[^>]*?>(.*?)</a></[^>]*?>
Listagem 5. Fragmentos de cdigo com a estrutura
dos beans.
//Bean responsavel por mapear a home do github.

public final class GitHubHome implements Serializable {
private static final long serialVersionUID = 1L;
private String title;
private String url;
// Getters e Setters
}
//Bean responsavel por mapear repositorio.
public final class GitHubRepository implements
Serializable {
private String url;
private String zip;
}
//Bean responsavel por mapear links para comandos git
clone.
public final class GitHubCloneUrl implements
Serializable {
private String url;
}
//Objeto responsavel por mapear resultado do github.
public final class GitHub implements Serializable {
Figura 3. Pgina carregada pela url https://github.com/rdccr
Figura 4. Pgina da lista de repositrios https://github.com/rdccr/repositories e a pgina do repositrio https://github.com/rdccr/crud-array-recursive-php usado para ilustrar o contedo a ser capturado.
/ 46
final String DOMAIN = https://github.com;

private List<GitHubRepository> repositories;
private List<GitHubCloneUrl> cloneUrls;
private String urlAvatared;
private String urlTabRepositories;
}
/*Constantes regex para parseamento do github. */
public final class GitHubPattern {
// Expressao usada para recuperar pagina de repositorios.
public static final String REPOSITORIES_TAB =
[^<a\\shref=\].*?\\?tab=repositories;
// Expressao usada para recuperar foto do usuario.
public static final String AVATARED =
<div\\sclass=\avatared\>[^>]*?<a\\shref=\(.*?)\;
// Expressao usada para recuperar lista de repositorios.
public static final String REPOSITORIES_LIST =
<h3>[^>]*?<span[^>]*?>.*?</span>[^>]*?
<a\\shref=\(.*?)\>(.*?)</a>[^>]*?</h3>;
// Expressao usada para recuperar arquivo zip para
download.
public static final String DOWNLOAD_ZIP =
<a\\shref=\(.*?)\[^>]*?><span[^>]*?></span>
ZIP</a>;
// Expressao usada para recuperar links para o
comando git clone.
public static final String CLONE_URL =
<[^>]*?\\sclass=\(?:http_clone_url|public_clone_
url|private_clone_url)[^>]*?\>[^>]*?<a\\
shref=\(.*?)\[^>]*?>(.*?)</a></[^>]*?>;
// Expressao usada para recuperar menu principal da
home do github.
public static final String GITHUB_HOME =
<[^>]*?class=\(?:explore|search|features|blog)
[^>]*?\><a[^>]href=\(.*?)>(.*?)</a></[^>]*?>;
// Expressao usada para recuperar erro caso usuario
submetido nao exista
// Clausula para executar de pesquisa padrao.

GitHub search(HttpClient httpclient, HttpGet httpget,
ResponseHandler<String> responseHandler);
// Clausula para buscar foto de usuario github.
String findUrlAvatared(HttpClient httpclient, HttpGet
httpget, ResponseHandler<String>
responseHandler);
// Clausula para buscar url parent da busca de
repositorios
String findUrlTabRepositories(HttpClient httpclient,
HttpGet httpget, ResponseHandler<String>
responseHandler);
// Clausula para buscar url de arquivo ZIP de
repositorio.
String downloadZipFile(HttpClient httpclient, HttpGet
httpget, ResponseHandler<String>
responseHandler);
// Clausula para buscar links para comandos git clone.
List<GitHubCloneUrl> findCloneUrls(HttpClient
httpclient, HttpGet httpget,ResponseHandler
<String> responseHandler);
// Clausula para buscar links da pagina principal do
github.
List<GitHubHome> findMenuGitHubHome(HttpClient
httpclient, HttpGet httpget,
ResponseHandler<String> responseHandler);
}
A interface descrita acima representa a estrutura do

agente e os mtodos que sero implementados possuem os seguintes argumentos: HttpClient responsvel por trafegar no protocolo http, HttpGet respons}
vel por consumir via get a url que ser utilizada pelo
cliente http e o ResponseHandler<String> responsvel pela resposta do contedo html acessado. A maniO prximo fragmento de cdigo ser referente ao da
pulao desses objetos a base para o funcionameninterface IGitHubSearchEngine que foi criada para
to do web crawler desenvolvido.
conter o contrato com as implementaes das assinaturas search(), findUrlAvatared(), findUrlTabRepo- Listagem 7. Implementao do mtodo findMenuGisitories(), downloadZipFile(), findCloneUrls(), find- tHubHome().
MenuGitHubHome() que o motor de busca do crawler // WebSpider GitHubSearchEngine.
dever seguir para seu funcionamento. Segue abaixo: public final class GitHubSearchEngine implements
Listagem 6. Contratos que devem ser seguidos pelo
Crawler.
public interface IGitHubSearchEngine {

// Constant com o dominio github.
IGitHubSearchEngine {
// Referencias para motor de busca

private ICompileRegex regex;
private Matcher matcher;
47 \
//Variaveis de instancia
private String urlTabRepositories;
private String urlAvatared;
private String urlDownloadZipFile;
private List<GitHubRepository> listGitHubRepository;
private List<GitHubCloneUrl> listGitHubCloneUrl;
private final GitHub gitHub;
private List<GitHubHome> listGitHubHome;
// Construtor com argumento
public GitHubSearchEngine(ICompileRegex regex) {
this.regex = regex;
this.gitHub = new GitHub();
}
// outros mtodos...
/**
* Metodo utilizado para recuperar lista de links da
home do github.
*/
public List<GitHubHome> findMenuGitHubHome(
HttpClient httpclient, HttpGet httpget,
ResponseHandler<String> responseHandler) {
try {
// Cria referencia para lista de objetos
GitHubHome.
this.listGitHubHome =
new ArrayList<GitHubHome>();
// Executa regex na resposta do httpclient.
this.matcher = regex.execute(
GitHubPattern.GITHUB_HOME, httpclient.
execute(httpget, responseHandler));
/*
* Percorre casamento do padrao, cria uma
* referencia de GitHubHome,
* populando e adicionando lista listGitHubCloneUrl
*/
while (this.matcher.find()) {
// Cria referencia do Bean de menu da home.
GitHubHome gitHubHome =
new GitHubHome();
// Seta Valores para a referencia do bean.
gitHubHome.setUrl(this.matcher.group(1));
gitHubHome.setTitle(this.matcher.group(2));
// Adiciona a referencia atual a lista de itens
// de menu.
this.listGitHubHome.add(gitHubHome);
}
} catch (ClientProtocolException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
// Fecha a conexao de httpclient.
httpclient.getConnectionManager().shutdown();
}
/ 48
return this.listGitHubHome;
}
// Outros mdotos...
Analisando o cdigo da Listagem 3, podemos verificar

que a lgica de busca proposta funciona da seguinte
forma. Em uma classe criada para encapsular as tarefas de compilao da expresso regular, passado
como parmetro o padro a ser usado referenciado
pela constante GitHubPattern.GITHUB_HOME e a
resposta da execuo do client http representado por
httpclient.execute(httpget, responseHandler). O resultado desse casamento de dados ser passado para
um objeto matcher e, caso this.matcher.find() seja
verdadeiro, significa que a expresso regular obteve retorno, sero adicionadas novas informaes ao
objeto GitHubHome. Note que no finally fechamos a
conexo do HttpClient.
Mo na massa: Fase 3
Nesta ltima fase vamos criar um webservice

para disponibilizar acesso s aes do web crawler,
podendo assim as informaes serem consumidas e,
caso seja necessrio, persistidas em algum modelo
de dados. Para a criao do webservice rest ser utilizado o JAX-RS com Jersey para gerar um retorno no
formato json. Segue trecho do cdigo:
Listagem 8. Web service para disponibilizar as infor-
maes.
@Path(/github)
public final class GitHubService {
/**
* Metodo do servico que retorna links da pagina
principal do github.com
* ACESSAR DA SEGUINTE FORMA: http://
localhost:8080/crawler/service/github/
*/
@GET
@Produces(MediaType.APPLICATION_JSON)
public Map<String, List<GitHubHome>>
findMenuHome() {
// Dominio do github.
String gitHubHomeDomain =
IGitHubSearchEngine.DOMAIN;
// Cria referencia para map de objetos GitHubHome.
Map<String, List<GitHubHome>> menuHome =
new HashMap<String, List<GitHubHome>>();
// Cria referencia para GitHubSearchEngine.
IGitHubSearchEngine gitHub =
new GitHubSearchEngine(new CompileRegex());
/*
* Cria referencia listGitHubHome para

lista de objetos GitHubHome com o
* retorno de
gitHub.findMenuGitHubHome().
*/
List<GitHubHome> listGitHubHome =
gitHub.findMenuGitHubHome(
new DefaultHttpClient(),
new HttpGet(gitHubHomeDomain),
new BasicResponseHandler());
thub/para extrair os itens do menu principal da home

do site github, ou http://localhost:8080/Spider/service/github/seu-usuariopara extrair sua foto, lista de
repositories e arquivos para download. Veja figuras 5
e 6.
Consideraes finais
O propsito deste artigo foi mostrar o porqu da

prtica do web crawling e sua importncia no contexto da web atual, levando em considerao seu tamanho e necessidade do consumo de seu contedo.
// Adiciona valor ao map.
Vimos tambm os conceitos bsicos de qualquer
menuHome.put(gitHubHomeDomain,
crawler, independentemente de linguagem e tecnolistGitHubHome);
logia. Aproveitamos e exemplificamos de forma prreturn menuHome;
tica a implementao em Java de um agente espec}
fico, que faz a captura e filtragem de dados, livres, do
}
github.com.
Esperamos que assim o leitor tenha a base para
Para acessar os servios localmente digite no seu iniciar uma implementao de um crawler em qualnavegador: http://localhost:8080/Spider/service/gi- quer linguagem.
/para saber mais

> Na edio nmero 24 da revista MundoJ abordada a
utilizao de Expresses Regulares com java.
/referncias
> Mastering Regular Expressions (Jeffrey Friedl).
> Livro - Expresses Regulares: Uma Abordagem Divertida
(Aurelio Marinho Jargas)
> Web Data Mining: Exploring Hyperlinks, Contents, and
Figura 5. Resposta do webservice rest acessado pela url http://

localhost:8080/Spider/service/github/seu-usuario exibindo o json
com o contedo extrado.
Usage Data (Bing Liu)

> http://www.scribd.com/doc/52799786/Definicao-WebMining
> http://www.dct.ufms.br/~mzanusso/Data_Mining.htm
> http://hc.apache.org/
> http://regexpal.com/
> http://news.usc.edu/#!/article/29360/How-MuchInformation-Is-There-in-the-World
> http://www.sciencemag.org/content/332/6025/60
> http://jess3.com
> http://en.wikipedia.org/wiki/Web_scraping#Legal_issues
> Web Crawling Ethics Revisited: Cost, Privacy and Denial
of Service1,
> http://carl.cs.indiana.edu/fil/WebSec/mining_social_
networks.html
Figura 6. Estrutura de pacotes do web crawler.

49 \

59 Webcrawler

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

59 Webcrawler

Diunggah oleh

Hak Cipta:

Format Tersedia

web crawler_

Web crawler em Java

Conhea o conceito de web crawler e aprenda como criar um

mtica de cdigos, minerao de endereos de e-mail,

Rodrigo Ribeiro | rdccr05@gmail.com

Luderson Costa | luderson@gmail.com

Neste artigo abordaremos um pouco sobre a problemtica que nos

Dada a quantidade de informaes disponveis

aplicados de forma muito especfica, dependendo

Como dissemos anteriormente o crawling no

Figura 1 . Fluxo de um Crawler.

HTTP. verdade, ento, que se pode trabalhar em

Extrao atravs de Expresses Regulares

Listagem 1. Expresso regular usada para validao

Esse padro valida qualquer data no formato

Nesse caso no ser permitido fazer a leitura do

Programando um Web Crawler

O HTTP (Hyper-Text Transfer Protocol) talvez

como uma extenso de Data Mining aplicado a dados

O que Web Mining?

Web Mining envolve tcnicas de recuperao de

O HttpComponents da Apache proporciona um

Agora o prximo passo criar a regex para extrair contedo

Agora com as expresses regulares devidamente

Listagem 4. Expresses regulares usadas para extrair

Listagem 5. Fragmentos de cdigo com a estrutura

//Bean responsavel por mapear a home do github.

Figura 3. Pgina carregada pela url https://github.com/rdccr

final String DOMAIN = https://github.com;

// Clausula para executar de pesquisa padrao.

A interface descrita acima representa a estrutura do

Listagem 6. Contratos que devem ser seguidos pelo

public interface IGitHubSearchEngine {

// Referencias para motor de busca

Analisando o cdigo da Listagem 3, podemos verificar

Nesta ltima fase vamos criar um webservice

Listagem 8. Web service para disponibilizar as infor-

* Cria referencia listGitHubHome para

thub/para extrair os itens do menu principal da home

O propsito deste artigo foi mostrar o porqu da

/para saber mais

Figura 5. Resposta do webservice rest acessado pela url http://

Usage Data (Bing Liu)

Figura 6. Estrutura de pacotes do web crawler.

Anda mungkin juga menyukai