SPS M Fathan Qoriiba

Desain Perancangan Crawler Sebagai Pendukung Pada
Search Engine
Muhammad Fathan Qoriiba – 3145161299
Dosen Pembimbing:
1. Med Irzal, M.Kom.
2. Muhammad Eka Suryana, M.Kom Start now!
Pendahulua
Kajian Pustaka Desain Model
n
BAB I Pendahuluan
Pendahulua
n
Latar Belakang
Archie (1990) Aliweb (1993) AltaVista (1995)

Dapat menampilkan User dapat menunggah Sistem algoritma lebih
daftar nama situs halaman yang ingin maju
terindeks Aliweb
Pendahulua
n
Latar Belakang
Yahoo! (2004) Google (1998) Bing (2009)

Data situs terkenal Menggunakan backlink Menambah berbagai
tersedia di Yahoo! untuk me-ranking fitur baru
setiap halaman
Pendahulua
n
Apple Search Engine

Google berani membayar Apple untuk tetap menjadi search engine utama Apple.
Apple sudah membuat Applebot crawler dan akan merilis search engine sendiri
Pendahulua
n
Latar Belakang
Fungsi search engine:
1. Mencari Informasi
2. Media Pemasaran
3. Mendapat Data
Pendahulua
n
Latar Belakang
Gmail YouTube
Layanan
Google
Google
Google Search
Drive
Setelah meluncurkan search

engine. Google membuat
Maps Playstore layanan lain, dan mendapatkan
banyak data melalui semua
layanan tersebut
AdWords AdSense
Pendahulua
n
Latar Belakang Maths
Web crawler merupakan software yang bekerja Focused Web Crawler (2020)
otomatis untuk menjelajahi World Wide Web Sawroop KAUR dan G.
secara terorganisir Geetha[8] membuat crawler
untuk hidden web
menggunakan SIM+HASH dan
Web crawler pertama (1994) Redis Server.
RBSE
(+) Komponennya hampir
Komponen:
sama dengan crawler pada
1. Spider : Memelihara umumnya
Queue
2. Mite : Download Page

Pendahulua
n
Latar Belakang
Search Engine
M Fathan Q Savira R (Ilkom UNJ 15)

mengimplementasi web crawling searching dan indexing
Pendahulua
n
Latar Belakang
Search Engine
(-) Tidak mengimplementasikan
web crawler Sawroop Kaur (2020).
Karena sudah terlalu rumit.
(+) Mengimplementasikan web

crawler dasar awal perkembangan
M Fathan Q Google.
mengimplementasi web crawling
(+) Penelitian ini menjadi dasar
penelitian search engine berikutnya
Pendahulua
n
Rumusan Masalah
“Bagaimana cara mendesain perancangan crawler sebagai pendukung pada

search engine?”
Pendahulua
n
Batasan Masalah
Pembatasan masalah pada penelitian ini adalah pembuatan sebagian arsitektur
search engine yaitu crawling. Algoritma crawler yang akan dibuat mengacu
pada
model algoritma Google awal.
Pendahulua
n
Tujuan Penelitian
1. 1. Membuat crawler yang dipakai untuk kebutuhan search engine.

2. 2. Untuk mengetahui arsitektur search engine.
3. 3. Untuk mempelajari cara kerja crawling.
Pendahulua
n
Manfaat Penelitian
Manfaat Penelitian
Bagi Penulis : Bagi Universitas Negeri Jakarta :
Menambah pengetahuan dibidang
Menjadi pertimbangan dan evaluasi
information retrieval khususnya
akademik khususnya Program
mengenai search engine dan
Studi Ilmu Komputer dalam
crawling, mengasah kemampuan
penyusunan skripsi sehingga dapat
programming, dan memperoleh
meningkatkan kualitas akademik di
gelar sarjana dibidang Ilmu
program studi Ilmu Komputer
Komputer. Selain itu, penulisan ini
Universitas Negeri Jakarta serta
juga merupakan media bagi penulis
meningkatkan kualitas lulusannya.
untuk mengaplikasikan ilmu yang
didapat di kampus ke kehidupan
masyarakat.
Pendahulua
n
BAB II
Kajian Pustaka
Pendahulua
n
Sejarah Search Engine
Merupakan search engine pertama. Archie secara berkala menjangkau semua

1990 – Archie | situs yang tersedia. Kemudian membuat daftar file dan indeks yang dapat
dicari. Archie tidak dapat mengindeks konten dari suatu situs.
Memunculkan program bernama Judghead dan Veronica, yang berfungsi untuk

1991 – Gopher | mencari nama judul dan file yang disimpan dalam sistem indeks Gopher. Cara
kerjanya mirip dengan Archie.
Tidak menggunakan web robot. Pengguna menuliskan sendiri alamat situs

1993 – Aliweb | mereka. Mesin pencari dapat memasukkan halaman web, kata kunci, dan
deskripsi yang dituliskan pengguna.
Pendahulua
n
Jumpstation menggunakan web robot untuk mencari halaman web dan

membangun indeksnya. Jumpstation merupakan tool pertama yang
1993 – Jumpstation | menggunakan 3 unsur penting pada search engine: searching, indexing,
crawling.
Search engine pertama yang menyediakan pencarian teks lengkap.

1994 – WebCrawler | Penggunanya dapat mencari setiap kata yang terdapat pada halaman web, dan
menjadi standar utama pada search engine sejak saat itu.
Memiliki server komputasi yang paling kuat. Merupakan search engine

1995 – AltaVista | tercepat dan dapat menangani jutaan hit dalam sehari. AltaVista mampu
memberikan respon yang sesuai jika pengguna mengetikan frasa atau
pertanyaan.
Pendahulua
n
Search engine yang memudahkan pengguna untuk menemukan jawaban dari

pertanyaan yang ditanyakan menggunakan bahasa yang umum digunakan.
1996 – AskJeeves (Ask) |
Sekarang Ask mampu menerima pertanyaan matematika, kamus, dan
pertanyaan konversi.
Google menambahkan metode untuk menghitung peringkat setiap halaman
web, bernama PageRank. Google meminimalisir hasil sampah di hasil
1998 – Google |
penelusuran teratas. Memudahkan pengguna menemukan informasi yang ada
di web. n jepang.
Search engine untuk website, file, audio dan gambar berbahasa china dan
2000 – Baidu |
jepang.
Pendahulua
n
Yahoo! menggabungkan kemampuan semua perusahaan search engine yang

2004 – Yahoo! | mereka peroleh dan dengan penelitian yang ada, kemudian
menggabungkannya kedalam satu search engine Yahoo!
Awalnya Microsoft mengembangkan MSN Search tahun 1998. kemudian

2009 – Bing | kerjasama dengan Yahoo! di tahun 2009. Bing menggunakan Yahoo! Search
untuk mendukung hasil pencariannya.
Search engine yang bersifat open source. Mempunyai komunitas yang

2008 – DuckDuckGo |
membahas search engine ini.
Pendahulua
n
Market Cap Search

Engine tahun 2010-2020
Google, diatas 85%
1. (10tahun)
2. Bing, 6,43% pada Juli 2020
3. Yahoo, 2,84% pada Juli 2020

Pendahulua
n
URL
Uniform Resource Locator (URL) atau “alamat web”
Fungsi :
1. menentukan lokasi sumber daya (seperti website) di internet.
2. menentukan cara mengambil sumber daya, atau dikenal sebagai "protocol", seperti HTTP, HTTPS,
FTP.
3. merupakan teks yang dapat dibaca manusia "human-readable" yang dirancang untuk menggantikan
angka (alamat IP).
URL terdiri dari protokol, nama domain, dan path. URL memiliki format dasar berikut:
protocol://nama-domain.top-level-domain/path.
Pendahulua
n
HTML
Hypertext Markup Language (HTML) merupakan bahasa yang mendeskripsikan struktur website.
Memiliki 2 bagian utama:

1. Head. Elemen head berisi title dan meta data dari dokumen web.
2. Body. Elemen body berisi informasi yang berupa tampilan di halaman web.
Pendahulua
n
Graph
Suatu graph didefinisikan dengan himpunan verteks & himpunan sisi (edge). Verteks menyatakan
entitas-entitas data & sisi menyatakan keterhubungan antara verteks. Biasanya melambangkan suatu
graph G dipakai notasi matematis.
G = (V, E)
G = graph
V = himpunan verteks
E = himpunan sisi yang terdefinisi antara pasangan-pasangan verteks
Pendahulua
n
Graph
Terdapat beberapa istilah yang berkaitan menggunakan graph, yaitu:
1. Edge. Himpunan garis yang menghubungkan tiap node / vertex.

2. Vertex. Himpunan node / titik dalam sebuah graph.
3. Weight. Merupakan Bobot.
4. Adjacent. Merupakan 2 buah titik yang berdekatan.
5. Walk. Merupakan barisan simpul dan ruas yang berganti-ganti.
6. Trail. Walk yang menggunakan seluruh ruas pada barisannya berbeda.
7. Path. Jalur walk yang seluruh simpul pada barisannya berbeda.
8. Cycle atau sirkuit merupakan suatu trail tertutup menggunakan derajat setiap simpulnya = 2.
Pendahulua
n
Breadth First Search
Breadth first search

merupakan salah satu
algoritma paling sederhana
untuk mencari graph.
Pendahulua
n
Breadth First Search
Breadth first search

merupakan salah satu
algoritma paling sederhana
untuk mencari graph.
Berikut merupakan
Pengoperasian BFS pada
graph.
Pendahulua
n
Definisi Search Engine
Search engine adalah program yang memungkinkan pengguna untuk mengajukan pertanyaan atau
memakai kata kunci untuk membantu mencari informasi pada web [18]
Search engine merupakan sebuah program yang bisa diakses melalui internet. Pada dasarnya merupakan
sebuah halaman web, tetapi perannya berfokus untuk mengumpulkan dan mengorganisir berbagai
informasi di internet.
Salah satu contoh search engine yang sangat populer saat ini adalah Google.
Pendahulua
n
Arsitektur Search Engine
Arsitektur Search Engine Google

Pendahulua
n
Web Crawler

Crawler adalah program yang mengambil halaman Web, biasanya untuk digunakan oleh mesin pencari
[12].
Crawler memulai dengan URL untuk halaman awal . Kemudian Crawler mengambil , mengekstrak
semua URL yang terdapat di dalam , dan menambahkannya ke antrian URL untuk dipindai. Kemudian
crawler mengambil URL dari antrian (dalam urutan tertentu), dan mengulangi prosesnya [4].
Pendahulua
n
Web Crawler
Sebuah web page P, dapat ditentukan importance of the page I(P) dengan salah satu cara berikut (Cara
tersebut dapat dikombinasikan satu sama lain):
1. Similarity to a Driving Query Q.
2. Backlink Count. IB(P)
3. PageRank. IR(P)
4. Location Metric
Pendahulua
n
Web Crawler
Secara umum terdapat tiga model crawler yang dirancang agar crawler dapat mengunjungi halaman I(P)
tinggi sebelum mengunjungi halaman yang berperingkat lebih rendah.
1. Crawl & Stop
2. Crawl & Stop with Threshold
3. Limited Buffer Crawl
Pendahulua
n
Arsitektur Crawler
High Level Architecture of Web Crawler [3]

Pendahulua
n
Algoritma Crawling
Typical Crawling Model [3]

Pendahulua
n
Algoritma Crawling
Modified similarity-based
crawling [4]
Pendahulua
n
Algoritma Crawling
Modified similarity-based
crawling [4]
Pendahulua
n
BAB III
Desain Model
Pendahulua
n
Desain Crawler
Typical crawling model

Modified similarity-based crawling
Penelitian ini pada dasarnya akan menggunakan modified similarity-based crawling, tetapi dalam
penggunaannya crawler tersebut membutuhkan crawler lain yang sudah berjalan, terutama untuk
keyword hot link. Sementara hot link hanya akan berjalan efficient dari crawling cache yang sudah
berjalan sebelumnya
Pendahulua
n
Desain Eksperimen
Untuk desain eksperimennya, penelitian ini akan menggunakan sejumlah query yang telah ditentukan,
dan juga pada bidang yang sudah ditentukan. Rancangannya sebagai berikut:
1. Perancangan breadth first search crawler
2. Perancangan modified similarity-based crawler.
3. Menentukan domain pencarian tertentu.
4. Menentukan sejumlah query pencarian yang akan diuji untuk domain yang telah ditentukan.
5. Menjalankan breadth first search crawler.
6. Menjalankan modified similarity-based crawler.
7. Menguji performa pada query yang diujikan.
Pendahulua
n
Arsitektur Diagram
Pendahulua
n
Flowchart Algoritma
Pendahulua
n
Domain Pencarian
Bidang pada penelitian ini adalah olahraga.
Situs yang menjadi node awal penelitian ini adalah Indosport, dengan nama situs:
https://www.indosport.com
Terdapat 4 query yang akan diujikan nantinya:

1. Klub bola Barcelona.
2. Sirkuit Mandalika MotoGP.
3. Pemain bulu tangkis Kevin Sanjaya.
4. Mobile Legends Profesional League.
Hasil utama yang diharapkan adalah, crawler dapat mengutamakan url yang terdapat keyword pada
query yang disebutkan.
Pendahulua
n
Parameter Keberhasilan
Untuk mengukur
keberhasilan crawler
diperlukan dua situasi yang
berbeda, yaitu:
1. Crawler hanya akan

berjalan pada sebuah
website.
Hasil: page map graph

Pendahulua
n
Parameter Keberhasilan
Untuk mengukur
keberhasilan crawler
diperlukan dua situasi yang
berbeda, yaitu:
2. Crawler akan berjalan

pada sebuah website, tetapi
akan terus melakukan
crawling hingga berhenti.
Hasil: site map graph

Thanks!
Do you have any questions?
mfathanqoriiba@gmail.com
M Fathan Qoriiba
3145161299
CREDITS: This presentation template was created by Slidesgo, including

icons by Flaticon, and infographics & images by Freepik

SPS M Fathan Qoriiba

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

SPS M Fathan Qoriiba

Diunggah oleh

Hak Cipta:

Format Tersedia

Desain Perancangan Crawler Sebagai Pendukung Pada

Archie (1990) Aliweb (1993) AltaVista (1995)

Yahoo! (2004) Google (1998) Bing (2009)

Apple Search Engine

Fungsi search engine:

Setelah meluncurkan search

Latar Belakang Maths

2. Mite : Download Page

M Fathan Q Savira R (Ilkom UNJ 15)

(+) Mengimplementasikan web

“Bagaimana cara mendesain perancangan crawler sebagai pendukung pada

1. 1. Membuat crawler yang dipakai untuk kebutuhan search engine.

Sejarah Search Engine

Merupakan search engine pertama. Archie secara berkala menjangkau semua

Memunculkan program bernama Judghead dan Veronica, yang berfungsi untuk

Tidak menggunakan web robot. Pengguna menuliskan sendiri alamat situs

Sejarah Search Engine

Jumpstation menggunakan web robot untuk mencari halaman web dan

Search engine pertama yang menyediakan pencarian teks lengkap.

Memiliki server komputasi yang paling kuat. Merupakan search engine

Sejarah Search Engine

Search engine yang memudahkan pengguna untuk menemukan jawaban dari

Sejarah Search Engine

Yahoo! menggabungkan kemampuan semua perusahaan search engine yang

Awalnya Microsoft mengembangkan MSN Search tahun 1998. kemudian

Search engine yang bersifat open source. Mempunyai komunitas yang

Sejarah Search Engine

Market Cap Search

3. Yahoo, 2,84% pada Juli 2020

Uniform Resource Locator (URL) atau “alamat web”

Memiliki 2 bagian utama:

Terdapat beberapa istilah yang berkaitan menggunakan graph, yaitu:

1. Edge. Himpunan garis yang menghubungkan tiap node / vertex.

Breadth First Search

Breadth first search

Breadth First Search

Breadth first search

Definisi Search Engine

Arsitektur Search Engine

Arsitektur Search Engine Google

High Level Architecture of Web Crawler [3]

Typical Crawling Model [3]

Typical crawling model

Terdapat 4 query yang akan diujikan nantinya:

1. Crawler hanya akan

Hasil: page map graph

2. Crawler akan berjalan

Hasil: site map graph

Do you have any questions?

CREDITS: This presentation template was created by Slidesgo, including

Anda mungkin juga menyukai