SPS M Fathan Qoriiba
SPS M Fathan Qoriiba
Search Engine
Muhammad Fathan Qoriiba – 3145161299
Dosen Pembimbing:
1. Med Irzal, M.Kom.
2. Muhammad Eka Suryana, M.Kom Start now!
Pendahulua
Kajian Pustaka Desain Model
n
BAB I Pendahuluan
Pendahulua
Kajian Pustaka Desain Model
n
Latar Belakang
Latar Belakang
Latar Belakang
1. Mencari Informasi
2. Media Pemasaran
3. Mendapat Data
Pendahulua
Kajian Pustaka Desain Model
n
Latar Belakang
Gmail YouTube
Layanan
Google
Google
Google Search
Drive
AdWords AdSense
Pendahulua
Kajian Pustaka Desain Model
n
Web crawler merupakan software yang bekerja Focused Web Crawler (2020)
otomatis untuk menjelajahi World Wide Web Sawroop KAUR dan G.
secara terorganisir Geetha[8] membuat crawler
untuk hidden web
menggunakan SIM+HASH dan
Web crawler pertama (1994) Redis Server.
RBSE
(+) Komponennya hampir
Komponen:
sama dengan crawler pada
1. Spider : Memelihara umumnya
Queue
Latar Belakang
Search Engine
Latar Belakang
Search Engine
(-) Tidak mengimplementasikan
web crawler Sawroop Kaur (2020).
Karena sudah terlalu rumit.
Rumusan Masalah
Batasan Masalah
Pembatasan masalah pada penelitian ini adalah pembuatan sebagian arsitektur
search engine yaitu crawling. Algoritma crawler yang akan dibuat mengacu
pada
model algoritma Google awal.
Pendahulua
Kajian Pustaka Desain Model
n
Tujuan Penelitian
Manfaat Penelitian
Manfaat Penelitian
Bagi Penulis : Bagi Universitas Negeri Jakarta :
Menambah pengetahuan dibidang
Menjadi pertimbangan dan evaluasi
information retrieval khususnya
akademik khususnya Program
mengenai search engine dan
Studi Ilmu Komputer dalam
crawling, mengasah kemampuan
penyusunan skripsi sehingga dapat
programming, dan memperoleh
meningkatkan kualitas akademik di
gelar sarjana dibidang Ilmu
program studi Ilmu Komputer
Komputer. Selain itu, penulisan ini
Universitas Negeri Jakarta serta
juga merupakan media bagi penulis
meningkatkan kualitas lulusannya.
untuk mengaplikasikan ilmu yang
didapat di kampus ke kehidupan
masyarakat.
Pendahulua
Kajian Pustaka Desain Model
n
BAB II
Kajian Pustaka
Pendahulua
Kajian Pustaka Desain Model
n
Search engine untuk website, file, audio dan gambar berbahasa china dan
2000 – Baidu |
jepang.
Pendahulua
Kajian Pustaka Desain Model
n
URL
Fungsi :
1. menentukan lokasi sumber daya (seperti website) di internet.
2. menentukan cara mengambil sumber daya, atau dikenal sebagai "protocol", seperti HTTP, HTTPS,
FTP.
3. merupakan teks yang dapat dibaca manusia "human-readable" yang dirancang untuk menggantikan
angka (alamat IP).
URL terdiri dari protokol, nama domain, dan path. URL memiliki format dasar berikut:
protocol://nama-domain.top-level-domain/path.
Pendahulua
Kajian Pustaka Desain Model
n
HTML
Hypertext Markup Language (HTML) merupakan bahasa yang mendeskripsikan struktur website.
Graph
Suatu graph didefinisikan dengan himpunan verteks & himpunan sisi (edge). Verteks menyatakan
entitas-entitas data & sisi menyatakan keterhubungan antara verteks. Biasanya melambangkan suatu
graph G dipakai notasi matematis.
G = (V, E)
G = graph
V = himpunan verteks
E = himpunan sisi yang terdefinisi antara pasangan-pasangan verteks
Pendahulua
Kajian Pustaka Desain Model
n
Graph
Berikut merupakan
Pengoperasian BFS pada
graph.
Pendahulua
Kajian Pustaka Desain Model
n
Search engine adalah program yang memungkinkan pengguna untuk mengajukan pertanyaan atau
memakai kata kunci untuk membantu mencari informasi pada web [18]
Search engine merupakan sebuah program yang bisa diakses melalui internet. Pada dasarnya merupakan
sebuah halaman web, tetapi perannya berfokus untuk mengumpulkan dan mengorganisir berbagai
informasi di internet.
Salah satu contoh search engine yang sangat populer saat ini adalah Google.
Pendahulua
Kajian Pustaka Desain Model
n
Web Crawler
Crawler adalah program yang mengambil halaman Web, biasanya untuk digunakan oleh mesin pencari
[12].
Crawler memulai dengan URL untuk halaman awal . Kemudian Crawler mengambil , mengekstrak
semua URL yang terdapat di dalam , dan menambahkannya ke antrian URL untuk dipindai. Kemudian
crawler mengambil URL dari antrian (dalam urutan tertentu), dan mengulangi prosesnya [4].
Pendahulua
Kajian Pustaka Desain Model
n
Web Crawler
Sebuah web page P, dapat ditentukan importance of the page I(P) dengan salah satu cara berikut (Cara
tersebut dapat dikombinasikan satu sama lain):
1. Similarity to a Driving Query Q.
2. Backlink Count. IB(P)
3. PageRank. IR(P)
4. Location Metric
Pendahulua
Kajian Pustaka Desain Model
n
Web Crawler
Secara umum terdapat tiga model crawler yang dirancang agar crawler dapat mengunjungi halaman I(P)
tinggi sebelum mengunjungi halaman yang berperingkat lebih rendah.
1. Crawl & Stop
2. Crawl & Stop with Threshold
3. Limited Buffer Crawl
Pendahulua
Kajian Pustaka Desain Model
n
Arsitektur Crawler
Algoritma Crawling
Algoritma Crawling
Modified similarity-based
crawling [4]
Pendahulua
Kajian Pustaka Desain Model
n
Algoritma Crawling
Modified similarity-based
crawling [4]
Pendahulua
Kajian Pustaka Desain Model
n
BAB III
Desain Model
Pendahulua
Kajian Pustaka Desain Model
n
Desain Crawler
Penelitian ini pada dasarnya akan menggunakan modified similarity-based crawling, tetapi dalam
penggunaannya crawler tersebut membutuhkan crawler lain yang sudah berjalan, terutama untuk
keyword hot link. Sementara hot link hanya akan berjalan efficient dari crawling cache yang sudah
berjalan sebelumnya
Pendahulua
Kajian Pustaka Desain Model
n
Desain Eksperimen
Untuk desain eksperimennya, penelitian ini akan menggunakan sejumlah query yang telah ditentukan,
dan juga pada bidang yang sudah ditentukan. Rancangannya sebagai berikut:
1. Perancangan breadth first search crawler
2. Perancangan modified similarity-based crawler.
3. Menentukan domain pencarian tertentu.
4. Menentukan sejumlah query pencarian yang akan diuji untuk domain yang telah ditentukan.
5. Menjalankan breadth first search crawler.
6. Menjalankan modified similarity-based crawler.
7. Menguji performa pada query yang diujikan.
Pendahulua
Kajian Pustaka Desain Model
n
Arsitektur Diagram
Pendahulua
Kajian Pustaka Desain Model
n
Flowchart Algoritma
Pendahulua
Kajian Pustaka Desain Model
n
Domain Pencarian
Bidang pada penelitian ini adalah olahraga.
Situs yang menjadi node awal penelitian ini adalah Indosport, dengan nama situs:
https://www.indosport.com
Parameter Keberhasilan
Untuk mengukur
keberhasilan crawler
diperlukan dua situasi yang
berbeda, yaitu:
Parameter Keberhasilan
Untuk mengukur
keberhasilan crawler
diperlukan dua situasi yang
berbeda, yaitu:
mfathanqoriiba@gmail.com
M Fathan Qoriiba
3145161299