Anda di halaman 1dari 15

EFFECTIVE PERFORMANCE OF INFORMATION

RETRIEVAL ON WEB BY USING WEB CRAWLING


PAPER SK. ADBUL NABI DAN DR. P. PREMCHAND
DEPARTMENT OF CSE, AVN INST. OF ENGG. & TECH, HYDERABAD, A.P., INDIA
DEPARTMENT OF CSE, OSMANIA UNIVERSITY, HYDERABAD, A.P., INDIA

Taskum Setiadi [14001929]

STMIK

Nusa Mandiri
Jakarta

Tentang Evaluasi
IR

Perbandingan dokumen
yang relevan terhadap
total dokumen hasil
query.
Precision =
Number_Retieved_Relevant
/Number_Total_Retieved.

Precisio
n

Recall
Perbandingan
jumlah relevan
terambil terhadap
total dokumen
relevan.
Recall=
Number_Retieved_Relevant
/Number_Possible_Relevant

Persentase dari
total data yang
diidentifikasi
Accuracy=Jumlah data
Relevan yang diambil/Total
data Relevan

Accurac
y

Pendahuluan

1.

Dalam dunia web, Information Retrieval bertindak sangat penting untuk


meminimalisir waktu dalam teknik pencarian/searching. World Wide Web terdiri
dari lebih dari 50 milyar halaman online (Nabi, 2012:63) dan terus mengalami
perubahan yang sangat signifikan dan tentu saja untuk menarik banyak orang.
Akibat banyak proses pencarian dan mesin pemcari tersebut, AbdulNabi, dkk.
Mengusulkan adanya EPOW (Kinerja Efektif Web Crawler).
Web
EPOW
Crawler

Tingkat keberhasilan pencarian informasi tergantung pada informasi yang


diperlukan dan berapa persen overhead diterima oleh pengguna. Dalam konteks
ini diperlukan (wajib) informasi dapat didefinisikan sebagai informasi yang
memadai dalam sistem untuk menyelesaikan pekerjaan. Misalnya Karyawan
bersedia untuk membeli rumah dari makelar dan kemudian ia membutuhkan
informasi semua yang relevan tentang situs dan rumah dokumen dan sejarah
juga sebelumnya situs/rumah, di mana sebagai mahasiswa hanya membutuhkan
informasi yang terbatas untuk sukses ujiannya.

Web Crawler
Web Crawleradalah suatu program atau script otomatis yang relatif
simple, yang dengan metode tertentu melakukan scan atau Crawl
ke semua halaman-halaman internet untuk membuat indexdaridata
yang dicarinya.
1.

Back

Pembahasan
Sering kali sistem pencarian membutuhkan data pencarian yang lebih kecil/singkat, bukan
pencarian dengan data yang sangat lengkap. Beberapa kasus dalam pengambilan data untuk
pencarian dengan data yang lengkap memerlukan waktu yang banyak untuk mendapatkan data
yang relevan.
Relevansi merupakan informasi yang dibutuhkan. Dari sudut pandang pengguna "relevan" dan
"dibutuhkan/Needed lebih identik, tetapi dari sudut pandang sistem informasi mungkin relevan
dengan pernyataan pencarian meskipun tidak relevan dengan pengguna/user.

2.
Precision dan Recall mempunyai peranan yang sangat penting dalam Sistem Informasi. Ketika user mulai
melakukan analisa Pencarian Informasi, maka database dipisahkan secara logis kedalam 4 Bagian:

Relevansi Dokumen-dokumen Hal inilah yang membantu pencari dalam


pertanyaan

Gambar 1. Segmentasi Pencarian pada Dokumen

menjawab berbagai

2.

Dimana Number_Possible_Relevant
adalah jumlah item yang relevan
dalam database.
Number_Total_Retrieved Diperoleh
adalah jumlah item diambil dari
query.
Jumlah _ Diperoleh _ relevan adalah
jumlah item diambil yang relevan
dengan kebutuhan pengguna
pencarian.
Jika pencarian memiliki 85% presisi,
maka 15% dari upaya pengguna
yang overhead adalah item yang
tidak relevan. Recall mewakili jumlah
total informasi relevan yang diambil
Gambar 2. PresisidanRecall yang Ideal dari jumlah total suatu informasi.

2.

Menunjukkan hubungan yang optimal antara


Precision dan Recall. Precision dimulai dari pada
100% dan menyatakan bahwa nilai-nilai selama
data yang diambil relevan. Setelah semua "N"
item yang relevan telah diambil, item yang
tersisa dari data yang telah diambil itu NonRelevan. Jadi setiap data yang diambil itu
Relevan maka Presisi/Precision tetap verada pada
posisi nilai 100% (1.0).

Gambar 3. Ideal Precision / Recall graph

Gambar 4. Optimal Precision / Recall


graph

Web Crawler

3.

Web Crawler adalah program komputer yang menelusuri World Wide Web dengan cara yang
metodis otomatis atau secara teratur. Web crawler paling utama digunakan untuk membuat
salinan dari semua halaman yang dikunjungi untuk diproses kemudian oleh sebuah mesin
pencari diindeks halaman download untuk memberikan pencarian cepat.
Sebuah crawler yang baik untuk mesin pencari yang besar harus berkaitan dengan dua isu.
Pertama, ia harus memiliki strategi Crawler, yaitu strategi yang baik untuk memutuskan halaman
mana untuk didownload berikutnya. Kedua, keinginan untuk memiliki arsitektur sistem yang
sangat optimal yang dapat mendownload sejumlah besar halaman per detik ketika pertimbangan
sumber dan kekuatan terhadap crash, pengelolaanya, dan sumber daya pada server web.

Arsitektur Dasar Web Crawler


Web Crawler harus dikembangkan dengan pertimbangan berbagai aplikasi dan kebijakan dengan jumlah
yang wajar dari sistem kerjanya. Perhatikan bahwa ada perbedaan yang signifikan antara skenarionya.
Misalnya, breadth-first crawle: memiliki keep track halaman yang siap utnuk dilakukan Crawler, ini
umumnya dilakukan dengan menggunakan "URL Seen", struktur data yang mungkin harus ada pada
Disk/Database Crawls yang besar.

4.

Web crawler juga disebut sebagai agen software. Secara umum, dimulai dengan daftar URL untuk
mengunjungi, disebut The Seeds. Sebagai crawler mengunjungi URL ini, itu mengidentifikasi semua
hyperlink di halaman dan menambahkan mereka ke daftar URL untuk dikunjungi, disebut The Crawl
Frontier (Perbatasan).
Sebuah crawler tidak hanya harus memiliki strategi Crawler baik, seperti yang disebutkan sebelumnya,
tetapi juga harus memiliki arsitektur yang sangat optimal.

Contoh Web Crawler

5.

1. Google Web Search


Google Web Search adalah mesin pencari web yang dimiliki oleh
Google Inc. Google Search adalah mesin pencari yang paling banyak
digunakan di World Wide Web menerima beberapa ratus juta query
setiap hari melalui berbagai layanan. Urutan hasil pencarian di laman
hasil penelusuran Google didasarkan, pada peringkat prioritas disebut
"Page Rank.

Contoh Web Crawler


2. Bing Search
Bing (sebelumnya Live Search, Windows Live Search, dan Search
MSN) adalah mesin pencari web (diiklankan sebagai "mesin
keputusan/Decision Engine dari Microsoft.
5.

Usulan Dari EPOW Arsitektur

Keuntungan
1.
2.
3.
4.

Flexibilitas Dan Portabilitas


Biaya Rendah dan kinerja Tinggi
Kokoh
Speed Control

Kesimpulan
Mengusulkan mekanisme scheduler di web crawler yang
efektif untuk pengambilan data halaman web yang relevan
pada selang waktu tertentu.
1.

Terutama, Web memiliki sifat Dinamic Nature, karena


sebagian besar halaman akan usang pada periode
tertentu. Untuk mengurangi masalah ini kita telah
menggunakan kebijakan revisit optimal. Tujuan untuk
menjaga halaman web tetap berjalan dengan baik.

Referensi Dari:

Anda mungkin juga menyukai