STMIK
Nusa Mandiri
Jakarta
Tentang Evaluasi
IR
Perbandingan dokumen
yang relevan terhadap
total dokumen hasil
query.
Precision =
Number_Retieved_Relevant
/Number_Total_Retieved.
Precisio
n
Recall
Perbandingan
jumlah relevan
terambil terhadap
total dokumen
relevan.
Recall=
Number_Retieved_Relevant
/Number_Possible_Relevant
Persentase dari
total data yang
diidentifikasi
Accuracy=Jumlah data
Relevan yang diambil/Total
data Relevan
Accurac
y
Pendahuluan
1.
Web Crawler
Web Crawleradalah suatu program atau script otomatis yang relatif
simple, yang dengan metode tertentu melakukan scan atau Crawl
ke semua halaman-halaman internet untuk membuat indexdaridata
yang dicarinya.
1.
Back
Pembahasan
Sering kali sistem pencarian membutuhkan data pencarian yang lebih kecil/singkat, bukan
pencarian dengan data yang sangat lengkap. Beberapa kasus dalam pengambilan data untuk
pencarian dengan data yang lengkap memerlukan waktu yang banyak untuk mendapatkan data
yang relevan.
Relevansi merupakan informasi yang dibutuhkan. Dari sudut pandang pengguna "relevan" dan
"dibutuhkan/Needed lebih identik, tetapi dari sudut pandang sistem informasi mungkin relevan
dengan pernyataan pencarian meskipun tidak relevan dengan pengguna/user.
2.
Precision dan Recall mempunyai peranan yang sangat penting dalam Sistem Informasi. Ketika user mulai
melakukan analisa Pencarian Informasi, maka database dipisahkan secara logis kedalam 4 Bagian:
menjawab berbagai
2.
Dimana Number_Possible_Relevant
adalah jumlah item yang relevan
dalam database.
Number_Total_Retrieved Diperoleh
adalah jumlah item diambil dari
query.
Jumlah _ Diperoleh _ relevan adalah
jumlah item diambil yang relevan
dengan kebutuhan pengguna
pencarian.
Jika pencarian memiliki 85% presisi,
maka 15% dari upaya pengguna
yang overhead adalah item yang
tidak relevan. Recall mewakili jumlah
total informasi relevan yang diambil
Gambar 2. PresisidanRecall yang Ideal dari jumlah total suatu informasi.
2.
Web Crawler
3.
Web Crawler adalah program komputer yang menelusuri World Wide Web dengan cara yang
metodis otomatis atau secara teratur. Web crawler paling utama digunakan untuk membuat
salinan dari semua halaman yang dikunjungi untuk diproses kemudian oleh sebuah mesin
pencari diindeks halaman download untuk memberikan pencarian cepat.
Sebuah crawler yang baik untuk mesin pencari yang besar harus berkaitan dengan dua isu.
Pertama, ia harus memiliki strategi Crawler, yaitu strategi yang baik untuk memutuskan halaman
mana untuk didownload berikutnya. Kedua, keinginan untuk memiliki arsitektur sistem yang
sangat optimal yang dapat mendownload sejumlah besar halaman per detik ketika pertimbangan
sumber dan kekuatan terhadap crash, pengelolaanya, dan sumber daya pada server web.
4.
Web crawler juga disebut sebagai agen software. Secara umum, dimulai dengan daftar URL untuk
mengunjungi, disebut The Seeds. Sebagai crawler mengunjungi URL ini, itu mengidentifikasi semua
hyperlink di halaman dan menambahkan mereka ke daftar URL untuk dikunjungi, disebut The Crawl
Frontier (Perbatasan).
Sebuah crawler tidak hanya harus memiliki strategi Crawler baik, seperti yang disebutkan sebelumnya,
tetapi juga harus memiliki arsitektur yang sangat optimal.
5.
Keuntungan
1.
2.
3.
4.
Kesimpulan
Mengusulkan mekanisme scheduler di web crawler yang
efektif untuk pengambilan data halaman web yang relevan
pada selang waktu tertentu.
1.
Referensi Dari: