Anda di halaman 1dari 16

COLETA DE CORPUS

NA WEB
CURSO BÁSICO
José Antonio V. S. de M. Oliveira
Aula 2 – Maio/2010
Recapitulando
 Codificação de caracteres
 Tabelas mais usadas em PT-BR
 ASCII, ISO-8859-1 e UTF-8
 Cada sistema usa uma terminação de linha diferente.
 Unix e MacOS X– LF [10]
 Windows – CR + LF [13 10]
 Mac (até versão 9) – CR [13]
 Usar a codificação e/ou a quebra de linha erradas resulta
em erros na contagem de palavras ou de linhas e a
análise do corpus fica prejudicada.
Recapitulando
 Elementos de páginas da Web
Toda página está codificada através de tags
<tag atributo1=“dados” atributo2=“dados”>
CONTEÚDO
</tag>
 Estrutura da Página:
 Versão do HTML
 Head
 Body
 Geralmente, o que procuramos está dentro
do body da página. Podemos ignorar o
head.
HTML Escape Codes
 Acentos e outros caracteres especiais
 As versões iniciais do HTML só permitiam que
o código tivesse caracteres da tabela ASCII
(Até 127).
 Para fazer acentos ou outros caracteres
especiais, usava-se os “Escape Characters”,
que consistem numa representação dos
caracteres entre um & e um “;”, por exemplo:
á => &aacute;
 ç => &ccedil;
HTML Escape Codes
 “As estações de trem de Magalhães Bastos e da Vila Militar, no
ramal Santa Cruz, vão ficar de cara nova. A Secretaria Estadual
de Transportes publica, nos próximos dias, edital de licitação para
as obras de ampliação e modernização de duas das oito estações
que serão reformadas até as Olimpíadas de 2016.”

<em>&ldquo;As esta&ccedil;&otilde;es de trem de Magalh&atilde;es


Bastos e da Vila Militar, no ramal Santa Cruz, v&atilde;o ficar
de cara nova. A <strong>Secretaria Estadual de
Transportes</strong> publica, nos pr&oacute;ximos dias, edital
de licita&ccedil;&atilde;o para as obras de
amplia&ccedil;&atilde;o e moderniza&ccedil;&atilde;o de duas das
oito esta&ccedil;&otilde;es que ser&atilde;o reformadas
at&eacute; as Olimp&iacute;adas de 2016.&rdquo;</em>
HTML Escape Codes
 Duas maneiras: &escapecode; ou &#code;
 &euro; &Otilde; &amp; &ecirc; (“€”, “Õ”, “&”, “ê”)
 &#8364; &#213; &#38; &#234; (“€”, “Õ”, “&”, “ê”)

 Lista completa:
 http://www.escapecodes.info/

 Ainda existem muitas páginas que usam os


escape codes para acentuar as letras e usar
caracteres especiais.
Feeds RSS e Atom
 Para acompanhar vários periódicos on-line sem
ter que visitar todos os sites é preciso
centralizar as notícias (ou pelo menos as
chamadas) em um único lugar.

 Para isso criou-se o conceito de Feed RSS, ou


seja, um endereço que é “alimentado”
constantemente com as matérias mais recentes.
Feeds RSS e Atom
 Os feeds são arquivos XML
 Assim como no HTML, no XML os dados são
envolvidos por
TAGs.
Feeds RSS e Atom
 O que vem num feed?
 Lista de itens (notícias, artigos etc.)
<item>
<title>Invasão do Planeta Terra</title>
<link>
http://news.noticias.com.br/2010/05/09/invasao.htm
</link>
<description>
O planeta Terra foi atacado por uma frota de naves
provenientes do outro lado da galáxia. Por sorte,
graças a um erro de cálculo de escala, toda armada
foi comida por um poodle.
</description>
</item>
Feeds RSS e Atom

Exemplo de leitor de Feed: Google Reader


Feeds RSS e Atom
 Existem inúmeras ferramentas para acompanhar
Feeds
 O Google Reader
 Outlook
 Firefox
 Netvibes
 Além de notícias, os feeds podem ser usados para
qualquer coisa que possua atualizações:
 Versões de programas
 Músicas
 Blogs
 Aulas
 Feeds também podem ser direcionados para
adicionar conteúdo a programas.
Feeds RSS e Atom
 Dois formatos são usados atualmente:
 RSS
 RSS 1.0 (RDF Site Summary)
 RSS 2.0 (Really Simple Syndication)

 Atom (uma tentativa de unir RSS 1.0 e RSS


2.0)
 Apesar de parecidos, os formatos possuem
aspectos particulares.
 Ambos são fáceis de processar
 Feeds Completos e Incompletos
Feeds Incompletos
 Geralmente, jornais não fornecem o
texto completo das notícias no seu RSS.
Feeds Incompletos
 Os feeds incompletos sempre indicam um link para
que o usuário clique e visite o texto completo da
matéria no site do periódico.
 Eles acabam servindo para indicar matérias novas e
para que o leitor (humano) possa decidir se vai ler
ou não a matéria completa.
 Para se obter o texto completo precisaremos seguir
o link, abrir a página do periódico e interpretar o
HTML da página.
Feeds Completos
 O sonho de consumo de todo “caçador de corpus”.
Feeds Completos
 Um feed completo contém todo o texto
do artigo no próprio RSS
 Pode conter o texto em HTML ou em
“plain text” (texto puro).
 Raramente se encontra em publicações
que não sejam gratuitas (blogs
particulares, foruns etc.)

Anda mungkin juga menyukai

  • Aula 8
    Aula 8
    Dokumen8 halaman
    Aula 8
    javsmo
    Belum ada peringkat
  • Aula 9
    Aula 9
    Dokumen6 halaman
    Aula 9
    javsmo
    Belum ada peringkat
  • Aula 7
    Aula 7
    Dokumen16 halaman
    Aula 7
    javsmo
    Belum ada peringkat
  • Aula 7
    Aula 7
    Dokumen16 halaman
    Aula 7
    javsmo
    Belum ada peringkat
  • Aula 5
    Aula 5
    Dokumen11 halaman
    Aula 5
    javsmo
    Belum ada peringkat
  • Aula 2
    Aula 2
    Dokumen16 halaman
    Aula 2
    javsmo
    Belum ada peringkat
  • Aula 4
    Aula 4
    Dokumen16 halaman
    Aula 4
    javsmo
    Belum ada peringkat
  • Aula 3
    Aula 3
    Dokumen16 halaman
    Aula 3
    javsmo
    Belum ada peringkat
  • Aula 1
    Aula 1
    Dokumen21 halaman
    Aula 1
    javsmo
    Belum ada peringkat