NA WEB
CURSO BÁSICO
José Antonio V. S. de M. Oliveira
Aula 2 – Maio/2010
Recapitulando
Codificação de caracteres
Tabelas mais usadas em PT-BR
ASCII, ISO-8859-1 e UTF-8
Cada sistema usa uma terminação de linha diferente.
Unix e MacOS X– LF [10]
Windows – CR + LF [13 10]
Mac (até versão 9) – CR [13]
Usar a codificação e/ou a quebra de linha erradas resulta
em erros na contagem de palavras ou de linhas e a
análise do corpus fica prejudicada.
Recapitulando
Elementos de páginas da Web
Toda página está codificada através de tags
<tag atributo1=“dados” atributo2=“dados”>
CONTEÚDO
</tag>
Estrutura da Página:
Versão do HTML
Head
Body
Geralmente, o que procuramos está dentro
do body da página. Podemos ignorar o
head.
HTML Escape Codes
Acentos e outros caracteres especiais
As versões iniciais do HTML só permitiam que
o código tivesse caracteres da tabela ASCII
(Até 127).
Para fazer acentos ou outros caracteres
especiais, usava-se os “Escape Characters”,
que consistem numa representação dos
caracteres entre um & e um “;”, por exemplo:
á => á
ç => ç
HTML Escape Codes
“As estações de trem de Magalhães Bastos e da Vila Militar, no
ramal Santa Cruz, vão ficar de cara nova. A Secretaria Estadual
de Transportes publica, nos próximos dias, edital de licitação para
as obras de ampliação e modernização de duas das oito estações
que serão reformadas até as Olimpíadas de 2016.”
Lista completa:
http://www.escapecodes.info/