Slide Webcrawling PDF
Slide Webcrawling PDF
Penelusuran Informasi
(Information Retrieval)
Sumber:
CS276: Information Retrieval and Web Search
Pandu Nayak and Prabhakar Raghavan
Taufik Fuadi Abidin
Web Crawling
Sec. 20.2
Sec. 20.2
URLs crawled
and parsed
Unseen Web
Seed
pages
URLs frontier
Web
4
Sec. 20.1.1
Sec. 20.1.1
Sec. 20.1.1
URLs crawled
and parsed
Unseen Web
Seed
Pages
URL frontier
Crawling thread
Sec. 20.2
URL Frontier
Dapat menerima halaman-halaman (lebih
dari satu) dari host yang sama
Namun hindari mengakses mereka pada
waktu yang bersamaan
Harus berusaha agar crawling threads busy
Sec. 20.2
Sec. 20.2.1
Contoh Robots.txt
Tidak ada spider yang dapat mengunjungi URL yang
diawali dengan
"/yoursite/temp/", kecuali spider itu adalah
searchengine":
User-agent: *
Disallow: /yoursite/temp/
User-agent: searchengine
Disallow:
10
Sec. 20.2.1
Sec. 20.2.1
WWW
Doc
robots
filters
URL
set
Content
seen?
URL
filter
Dup
URL
elim
Parse
Fetch
URL Frontier
12
Sec. 20.2.2
13
Sec. 20.2.1
Sec. 20.2.1
Sec. 20.2.1
16
Sec. 20.2.1
17
Sec. 20.2.3
18