Anda di halaman 1dari 44

Desain Perancangan Crawler Sebagai Pendukung Pada

Search Engine
Muhammad Fathan Qoriiba – 3145161299
Dosen Pembimbing:
1. Med Irzal, M.Kom.
2. Muhammad Eka Suryana, M.Kom Start now!
Pendahulua
Kajian Pustaka Desain Model
n

BAB I Pendahuluan
Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang

Archie (1990) Aliweb (1993) AltaVista (1995)


Dapat menampilkan User dapat menunggah Sistem algoritma lebih
daftar nama situs halaman yang ingin maju
terindeks Aliweb
Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang

Yahoo! (2004) Google (1998) Bing (2009)


Data situs terkenal Menggunakan backlink Menambah berbagai
tersedia di Yahoo! untuk me-ranking fitur baru
setiap halaman
Pendahulua
Kajian Pustaka Desain Model
n

Apple Search Engine


Google berani membayar Apple untuk tetap menjadi search engine utama Apple.
Apple sudah membuat Applebot crawler dan akan merilis search engine sendiri
Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang

Fungsi search engine:

1. Mencari Informasi

2. Media Pemasaran

3. Mendapat Data
Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang

Gmail YouTube

Layanan
Google
Google
Google Search
Drive

Setelah meluncurkan search


engine. Google membuat
Maps Playstore layanan lain, dan mendapatkan
banyak data melalui semua
layanan tersebut

AdWords AdSense
Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang Maths

Web crawler merupakan software yang bekerja Focused Web Crawler (2020)
otomatis untuk menjelajahi World Wide Web Sawroop KAUR dan G.
secara terorganisir Geetha[8] membuat crawler
untuk hidden web
menggunakan SIM+HASH dan
Web crawler pertama (1994) Redis Server.
RBSE
(+) Komponennya hampir
Komponen:
sama dengan crawler pada
1. Spider : Memelihara umumnya
Queue

2. Mite : Download Page


Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang

Search Engine

M Fathan Q Savira R (Ilkom UNJ 15)


mengimplementasi web crawling searching dan indexing
Pendahulua
Kajian Pustaka Desain Model
n

Latar Belakang

Search Engine
(-) Tidak mengimplementasikan
web crawler Sawroop Kaur (2020).
Karena sudah terlalu rumit.

(+) Mengimplementasikan web


crawler dasar awal perkembangan
M Fathan Q Google.
mengimplementasi web crawling
(+) Penelitian ini menjadi dasar
penelitian search engine berikutnya
Pendahulua
Kajian Pustaka Desain Model
n

Rumusan Masalah

“Bagaimana cara mendesain perancangan crawler sebagai pendukung pada


search engine?”
Pendahulua
Kajian Pustaka Desain Model
n

Batasan Masalah
Pembatasan masalah pada penelitian ini adalah pembuatan sebagian arsitektur
search engine yaitu crawling. Algoritma crawler yang akan dibuat mengacu
pada
model algoritma Google awal.
Pendahulua
Kajian Pustaka Desain Model
n

Tujuan Penelitian

1. 1. Membuat crawler yang dipakai untuk kebutuhan search engine.


2. 2. Untuk mengetahui arsitektur search engine.
3. 3. Untuk mempelajari cara kerja crawling.
Pendahulua
Kajian Pustaka Desain Model
n

Manfaat Penelitian
Manfaat Penelitian
Bagi Penulis : Bagi Universitas Negeri Jakarta :
Menambah pengetahuan dibidang
Menjadi pertimbangan dan evaluasi
information retrieval khususnya
akademik khususnya Program
mengenai search engine dan
Studi Ilmu Komputer dalam
crawling, mengasah kemampuan
penyusunan skripsi sehingga dapat
programming, dan memperoleh
meningkatkan kualitas akademik di
gelar sarjana dibidang Ilmu
program studi Ilmu Komputer
Komputer. Selain itu, penulisan ini
Universitas Negeri Jakarta serta
juga merupakan media bagi penulis
meningkatkan kualitas lulusannya.
untuk mengaplikasikan ilmu yang
didapat di kampus ke kehidupan
masyarakat.
Pendahulua
Kajian Pustaka Desain Model
n

BAB II
Kajian Pustaka
Pendahulua
Kajian Pustaka Desain Model
n

Sejarah Search Engine

Merupakan search engine pertama. Archie secara berkala menjangkau semua


1990 – Archie | situs yang tersedia. Kemudian membuat daftar file dan indeks yang dapat
dicari. Archie tidak dapat mengindeks konten dari suatu situs.

Memunculkan program bernama Judghead dan Veronica, yang berfungsi untuk


1991 – Gopher | mencari nama judul dan file yang disimpan dalam sistem indeks Gopher. Cara
kerjanya mirip dengan Archie.

Tidak menggunakan web robot. Pengguna menuliskan sendiri alamat situs


1993 – Aliweb | mereka. Mesin pencari dapat memasukkan halaman web, kata kunci, dan
deskripsi yang dituliskan pengguna.
Pendahulua
Kajian Pustaka Desain Model
n

Sejarah Search Engine

Jumpstation menggunakan web robot untuk mencari halaman web dan


membangun indeksnya. Jumpstation merupakan tool pertama yang
1993 – Jumpstation | menggunakan 3 unsur penting pada search engine: searching, indexing,
crawling.

Search engine pertama yang menyediakan pencarian teks lengkap.


1994 – WebCrawler | Penggunanya dapat mencari setiap kata yang terdapat pada halaman web, dan
menjadi standar utama pada search engine sejak saat itu.

Memiliki server komputasi yang paling kuat. Merupakan search engine


1995 – AltaVista | tercepat dan dapat menangani jutaan hit dalam sehari. AltaVista mampu
memberikan respon yang sesuai jika pengguna mengetikan frasa atau
pertanyaan.
Pendahulua
Kajian Pustaka Desain Model
n

Sejarah Search Engine

Search engine yang memudahkan pengguna untuk menemukan jawaban dari


pertanyaan yang ditanyakan menggunakan bahasa yang umum digunakan.
1996 – AskJeeves (Ask) |
Sekarang Ask mampu menerima pertanyaan matematika, kamus, dan
pertanyaan konversi.
Google menambahkan metode untuk menghitung peringkat setiap halaman
web, bernama PageRank. Google meminimalisir hasil sampah di hasil
1998 – Google |
penelusuran teratas. Memudahkan pengguna menemukan informasi yang ada
di web. n jepang.

Search engine untuk website, file, audio dan gambar berbahasa china dan
2000 – Baidu |
jepang.
Pendahulua
Kajian Pustaka Desain Model
n

Sejarah Search Engine

Yahoo! menggabungkan kemampuan semua perusahaan search engine yang


2004 – Yahoo! | mereka peroleh dan dengan penelitian yang ada, kemudian
menggabungkannya kedalam satu search engine Yahoo!

Awalnya Microsoft mengembangkan MSN Search tahun 1998. kemudian


2009 – Bing | kerjasama dengan Yahoo! di tahun 2009. Bing menggunakan Yahoo! Search
untuk mendukung hasil pencariannya.

Search engine yang bersifat open source. Mempunyai komunitas yang


2008 – DuckDuckGo |
membahas search engine ini.
Pendahulua
Kajian Pustaka Desain Model
n

Sejarah Search Engine

Market Cap Search


Engine tahun 2010-2020
Google, diatas 85%
1. (10tahun)
2. Bing, 6,43% pada Juli 2020

3. Yahoo, 2,84% pada Juli 2020


Pendahulua
Kajian Pustaka Desain Model
n

URL

Uniform Resource Locator (URL) atau “alamat web”

Fungsi :
1. menentukan lokasi sumber daya (seperti website) di internet.
2. menentukan cara mengambil sumber daya, atau dikenal sebagai "protocol", seperti HTTP, HTTPS,
FTP.
3. merupakan teks yang dapat dibaca manusia "human-readable" yang dirancang untuk menggantikan
angka (alamat IP).

URL terdiri dari protokol, nama domain, dan path. URL memiliki format dasar berikut:
protocol://nama-domain.top-level-domain/path.
Pendahulua
Kajian Pustaka Desain Model
n

HTML

Hypertext Markup Language (HTML) merupakan bahasa yang mendeskripsikan struktur website.

Memiliki 2 bagian utama:


1. Head. Elemen head berisi title dan meta data dari dokumen web.
2. Body. Elemen body berisi informasi yang berupa tampilan di halaman web.
Pendahulua
Kajian Pustaka Desain Model
n

Graph

Suatu graph didefinisikan dengan himpunan verteks & himpunan sisi (edge). Verteks menyatakan
entitas-entitas data & sisi menyatakan keterhubungan antara verteks. Biasanya melambangkan suatu
graph G dipakai notasi matematis.
G = (V, E)
G = graph
V = himpunan verteks
E = himpunan sisi yang terdefinisi antara pasangan-pasangan verteks
Pendahulua
Kajian Pustaka Desain Model
n

Graph

Terdapat beberapa istilah yang berkaitan menggunakan graph, yaitu:

1. Edge. Himpunan garis yang menghubungkan tiap node / vertex.


2. Vertex. Himpunan node / titik dalam sebuah graph.
3. Weight. Merupakan Bobot.
4. Adjacent. Merupakan 2 buah titik yang berdekatan.
5. Walk. Merupakan barisan simpul dan ruas yang berganti-ganti.
6. Trail. Walk yang menggunakan seluruh ruas pada barisannya berbeda.
7. Path. Jalur walk yang seluruh simpul pada barisannya berbeda.
8. Cycle atau sirkuit merupakan suatu trail tertutup menggunakan derajat setiap simpulnya = 2.
Pendahulua
Kajian Pustaka Desain Model
n

Breadth First Search

Breadth first search


merupakan salah satu
algoritma paling sederhana
untuk mencari graph.
Pendahulua
Kajian Pustaka Desain Model
n

Breadth First Search

Breadth first search


merupakan salah satu
algoritma paling sederhana
untuk mencari graph.

Berikut merupakan
Pengoperasian BFS pada
graph.
Pendahulua
Kajian Pustaka Desain Model
n

Definisi Search Engine

Search engine adalah program yang memungkinkan pengguna untuk mengajukan pertanyaan atau
memakai kata kunci untuk membantu mencari informasi pada web [18]
Search engine merupakan sebuah program yang bisa diakses melalui internet. Pada dasarnya merupakan
sebuah halaman web, tetapi perannya berfokus untuk mengumpulkan dan mengorganisir berbagai
informasi di internet.

Salah satu contoh search engine yang sangat populer saat ini adalah Google.
Pendahulua
Kajian Pustaka Desain Model
n

Arsitektur Search Engine

Arsitektur Search Engine Google


Pendahulua
Kajian Pustaka Desain Model
n

Web Crawler
 

Crawler adalah program yang mengambil halaman Web, biasanya untuk digunakan oleh mesin pencari
[12].

Crawler memulai dengan URL untuk halaman awal . Kemudian Crawler mengambil , mengekstrak
semua URL yang terdapat di dalam , dan menambahkannya ke antrian URL untuk dipindai. Kemudian
crawler mengambil URL dari antrian (dalam urutan tertentu), dan mengulangi prosesnya [4].
Pendahulua
Kajian Pustaka Desain Model
n

Web Crawler

Sebuah web page P, dapat ditentukan importance of the page I(P) dengan salah satu cara berikut (Cara
tersebut dapat dikombinasikan satu sama lain):
1. Similarity to a Driving Query Q.
2. Backlink Count. IB(P)
3. PageRank. IR(P)
4. Location Metric
Pendahulua
Kajian Pustaka Desain Model
n

Web Crawler

Secara umum terdapat tiga model crawler yang dirancang agar crawler dapat mengunjungi halaman I(P)
tinggi sebelum mengunjungi halaman yang berperingkat lebih rendah.
1. Crawl & Stop
2. Crawl & Stop with Threshold
3. Limited Buffer Crawl
Pendahulua
Kajian Pustaka Desain Model
n

Arsitektur Crawler

High Level Architecture of Web Crawler [3]


Pendahulua
Kajian Pustaka Desain Model
n

Algoritma Crawling

Typical Crawling Model [3]


Pendahulua
Kajian Pustaka Desain Model
n

Algoritma Crawling

Modified similarity-based
crawling [4]
Pendahulua
Kajian Pustaka Desain Model
n

Algoritma Crawling

Modified similarity-based
crawling [4]
Pendahulua
Kajian Pustaka Desain Model
n

BAB III
Desain Model
Pendahulua
Kajian Pustaka Desain Model
n

Desain Crawler

Typical crawling model


Modified similarity-based crawling

Penelitian ini pada dasarnya akan menggunakan modified similarity-based crawling, tetapi dalam
penggunaannya crawler tersebut membutuhkan crawler lain yang sudah berjalan, terutama untuk
keyword hot link. Sementara hot link hanya akan berjalan efficient dari crawling cache yang sudah
berjalan sebelumnya
Pendahulua
Kajian Pustaka Desain Model
n

Desain Eksperimen

Untuk desain eksperimennya, penelitian ini akan menggunakan sejumlah query yang telah ditentukan,
dan juga pada bidang yang sudah ditentukan. Rancangannya sebagai berikut:
1. Perancangan breadth first search crawler
2. Perancangan modified similarity-based crawler.
3. Menentukan domain pencarian tertentu.
4. Menentukan sejumlah query pencarian yang akan diuji untuk domain yang telah ditentukan.
5. Menjalankan breadth first search crawler.
6. Menjalankan modified similarity-based crawler.
7. Menguji performa pada query yang diujikan.
Pendahulua
Kajian Pustaka Desain Model
n

Arsitektur Diagram
Pendahulua
Kajian Pustaka Desain Model
n

Flowchart Algoritma
Pendahulua
Kajian Pustaka Desain Model
n

Domain Pencarian
Bidang pada penelitian ini adalah olahraga.
Situs yang menjadi node awal penelitian ini adalah Indosport, dengan nama situs:
https://www.indosport.com

Terdapat 4 query yang akan diujikan nantinya:


1. Klub bola Barcelona.
2. Sirkuit Mandalika MotoGP.
3. Pemain bulu tangkis Kevin Sanjaya.
4. Mobile Legends Profesional League.
Hasil utama yang diharapkan adalah, crawler dapat mengutamakan url yang terdapat keyword pada
query yang disebutkan.
Pendahulua
Kajian Pustaka Desain Model
n

Parameter Keberhasilan

Untuk mengukur
keberhasilan crawler
diperlukan dua situasi yang
berbeda, yaitu:

1. Crawler hanya akan


berjalan pada sebuah
website.

Hasil: page map graph


Pendahulua
Kajian Pustaka Desain Model
n

Parameter Keberhasilan

Untuk mengukur
keberhasilan crawler
diperlukan dua situasi yang
berbeda, yaitu:

2. Crawler akan berjalan


pada sebuah website, tetapi
akan terus melakukan
crawling hingga berhenti.

Hasil: site map graph


Thanks!

Do you have any questions?

mfathanqoriiba@gmail.com
M Fathan Qoriiba
3145161299

CREDITS: This presentation template was created by Slidesgo, including


icons by Flaticon, and infographics & images by Freepik

Anda mungkin juga menyukai