Resume Information Retrieval On The Internet
Resume Information Retrieval On The Internet
NAMA
: YANUAR PAMBUDI
NIM
: A11.2013.07590
KEL
: A11.4802
Abstrak :
Komponen utama dari search engine adalah web crawler yang berfungi
untuk mengumpulkan laman web dan sistem Information Retrival yang
memiliki tugas mengambil dokumen atau teks yang sesuai dengan
permintaan pengguna. Dalam paper ini penelitian lebih dititik beratkan pada
web crawling, model pengambilan informasi, dan metode yang digunakan
untuk mengevaluasi kinerja pengambilan informasi. Praktis pertimbangan
mencakup informasi tentang sistem IR yang sudah ada dan sebagai contoh
berskala besar yaitu mesin pencari (Google), termasuk ide oeringkat
halaman web sesuai dengan kepentingan mereka (yaitu hubungan tentang
algoritma Authorities dan algoritma Google PageRank). Kemudian kami juga
membahas web yang tidak terlihat, yaitu bagian web yang tidak di indeks
oleh search engine. Secara singkat jenis lain dari sistem Information
Retrieval yaitu : Perpustakaan digital, Sistem pengambilan multimedia
(music, video, dll), dan Sistem IR terdistribusi. Kami menyimpulkan dengan
diskusi tentang web semantic dan tren masa depan dalam memvisuaisasikan
hasil pencarian dan memasukkan query dalam Bahasa alami.
Pendahuluan
Sangat banyak sekali teks, audio, video dan dokumen lain yang
tersedia pada internet, pada topik apapun. Pengguna harus menemukan
informasi yang relevan untuk memuaskan mereka dalam mencari informasi
tertentu. Ada 2 cara untuk mencari informasi, yaitu : Menggunakan mesin
pencarian (search engine) dan Browsing direktori yang disediakan olek
kategori (seperti yahoo direktori). Ada sebagian besar dari internet yang
tidak dapat diakses (misalnya database pribadi dan intranet).
Information Retrieval (IR) memiliki tugas untuk merepresentasikan,
menyimpan, mengorganisir, dan memberi akses item informasi. IR berbeda
dengan pengambilan data, dimana IR berbicara tentang menemukkan data
yang tepat dalam database dengan struktur terterntu. Dalam sistem IR,
informasi tidak terstruktur terkandung dalam bentuk bebas, baik berupa teks
(halaman web atau dokumen lainnya) atau konten multimedia. Pertama
sistem IR diyang dikembangkan pada tahun 1970 ini dirancang untuk beerja
dengan mengoleksi teks-teks kecil (misaknya digunakan dalam dokumen
hukum). Beberapa teknik ini sekarang digunakan di mesin pencari (search
engine).
Dalam paper ini dijelaskan tentang pencarian informasi dengan focus
pada tantangan yang dihadapi oleh mesin pencari. Salah satunya tantangan
tertentu adalah skala besar, mengingat dengan besarnya laman web yang
tersedia di internet (misalnya, sekitar 8 miliar halaman web yang diindeks
oleh Gooogle pada tahun 2005). Tantangan lain adalah melekat pada setiap
sistem IR yang begrhubungan dengan teks: abiguitas dari Bahasa alami
(Bahasa Inggris atau Bahasa lain) yang membuatnya sulit untuk memiliki
perbandingan yang sempurna antara dokumen dan query penguna.
SEARCH ENGINE
Ada banyak tujuan umum mesin pencari yang tersedia di Web. Sebuah
sumber daya yang berisi informasi upto-date pada mesin pencari yang paling
sering digunakan adalah:
http://www.searchenginewatch.com.
pertama untuk secara luas dikenal masyarakat. Juga pada tahun 1994, Lycos
(yang dimulai pada Carnegie Mellon University) keluar, dan menjadi usaha
komersial utama.
Fitur dan Layanan Search Engine
Search Engine memungkinkan penggunanya untuk memasukkan kata
kunci masukanyang menggambarkan kebutuhan informasi. Selain itu juga
menawarkan kemampuan pencarian lanjutan. Meskipun mereka
menyebabkan pencarian lebih tepatm mereka kurang dimanfaatkan oleh
pengguna. Secara singkat akan dibahas tentang beberapa fitur pencarian
lanjutan. Fitur Boolean (AND, OR, NOT) yang memungkinkan pengambilan
dokumen yang mengandung semua kata kunci (AND), salah satu kata kunci
(OR), mengecualikan beberapa kata (NOT), atau kombinasi dari operator
Boolean. Fitur pendekatan pencarian untuk frase atau kata-kata berturutturut (biasanya pencarian sederhana dapat melakukan ini jika kata-kata
dikelilingi oleh tanda kutip ganda). pencarian dapat dilakukan hanya dalam
bidang tertentu, seperti URL atau judul. Batas dapat dikenakan pada jenis
halaman diambil: tanggal, bahasa, jenis file, dll.
Beberapa mesin pencari juga menawarkan layanan: direktori berita,
pencarian gambar, peta (seperti Google Maps), alat-alat bahasa (seperti alat
terjemahan otomatis atau interface pada khususnya bahasa), pencarian
newsgroup, dan pencarian khusus lainnya.
Arsitektur Search Engine
Komponen mesin pencari adalah: Web crawler (mengumpulkan
halaman web), pengindeksan (Mewakili dan menyimpan informasi),
pengambilan (mampu mengambil dokumen yang relevan untuk permintaan
pengguna), dan peringkat hasil sesuai dengan relevansi. Gambar 1
menyajikan penyederhanaan komponen dari mesin pencari. Rincian lebih
lanjut tentang modul utama, sistem IR, akan mengikuti pada bagian
selanjutnya.
WEB CRAWLING
Web crawler, juga dikenal sebagai laba-laba atau robot, memiliki tugas
untuk mengumpulkan halaman web untuk membangun koleksi teks untuk
sistem IR. teks diekstrak dari kode HTML dari halaman web. Beberapa
informasi yang terkait dengan format HTML dapat disimpan juga. Misalnya,
teks dalam pos atau dalam huruf tebal dapat diberi bobot lebih tinggi dari
sisa teks.
Sebuah crawler dimulai dengan satu atau lebih alamat http (satu set
URL root), dan mengikuti semua link pada halaman ini secara rekursif, untuk
menemukan halaman tambahan. Hal ini dapat dilanjutkan oleh pencarian
depth-first (Ikuti link pertama di halaman dan semua link di halaman baru
yang mengarah ke, kemudian kembali untuk mengikuti sisa link di halaman
ini) atau dengan pencarian breadth-first (mengikuti semua link di halaman
untuk satu langkah, maka link di halaman mereka ke titik, untuk satu
langkah, dll).
Untuk mengekstrak link dari halaman web untuk mengumpulkan calon
link untuk mengikuti, HTML bidang hyperlink yang diurai. Berikut adalah dua
contoh dari hyperlink:
<a href=http://www.site.uottawa.ca/~diana/csi4107>
<frame src=site-index.html>
Jika URL tidak ditentukan, seperti dalam contoh terakhir, link relatif ke URL
arus basis. Jika nama file tidak ditentukan, nama default digunakan (seperti
index.hml). Link yang dimasukkan ke dalam bentuk kanonik: slash berakhir
dihapus, jika ada satu; referensi internal dalam yang sama Halaman dihapus,
dll. Setelah halaman dikumpulkan, teks diekstrak dari HTML dokumen, untuk
diproses oleh sistem IR.
Protokol robot pengecualian digunakan untuk mencegah situs tertentu
atau halaman web dari menjadi diindeks oleh crawler Web. situs web dan
halaman dapat menentukan bahwa robot tidak harus merangkak atau indeks
daerah-daerah tertentu, dengan menggunakan Robots Exclusion Protocol
atau robot meta tag. Yang kedua adalah baru dan kurang baik diadopsi dari
yang pertama. Standar-standar ini adalah konvensi yang harus diikuti oleh
"robot baik". Mereka tidak dapat ditegakkan, tetapi perusahaan telah
dituntut untuk "Mematuhi" konvensi ini dan "pelanggaran" pada dunia maya
pribadi.
The Robots Exclusion Protocol
Robots Exclusion Protocol adalah spesifikasi seluruh situs direktori
dikecualikan. situs ini
administrator harus menempatkan "robots.txt" file pada root direktori web
host. Lihat untuk
contohhttp://www.ebay.com/robots.txt. The file "robots.txt" adalah daftar
direktori dikecualikan untuk robot diberikan (user-agent). File ini berisi baris
kosong untuk memisahkan user-agent yang berbeda dianulir direktori,
dengan satu direktori per "Disallow" baris. Tidak ada ekspresi reguler dapat
digunakan sebagai pola direktori.
Robot Meta Tag
Tag dokumen tertentu dapat digunakan untuk mengecualikan
pengindeksan atau link berikut di tertentu halaman web. Bagian HEAD
dokumen HTML tertentu dapat mencakup meta tag robot, seperti sebagai
<meta name = "robots" content = "none">. Nilai konten dapat menjadi
sepasang nilai untuk dua aspek: indeks atau noindex untuk memungkinkan
atau pelarangan pengindeksan halaman ini, dan ikuti atau nofollow untuk
mengizinkan atau pelarangan mengikuti link di halaman ini. Ada dua nilainilai khusus: semua = indeks, ikuti dan tidak ada = noindex, nofollow.
contoh:
<Meta name = "robots" content = "noindex, ikuti">
<Meta name = "robots" content = "index, nofollow">
<Meta name = "robots" content = "none">
INFORMATION RETRIEVAL SYSTEM
Gambar 2 menyajikan pandangan yang lebih rinci dari arsitektur
sistem IR (Baeza-Yates dan Berthier Ribeiro-Neto, 1999). Operasi teks
digunakan untuk preproses dokumen koleksi
dan untuk mengekstrak kata indeks. Modul pengindeksan membangun
indeks terbalik dari kata-kata untuk pointer dokumen. Modul pencarian
mengambil dokumen yang berisi diberikan kata-kata query, menggunakan
indeks terbalik. Skor modul peringkat semua dokumen yang diambil menurut
relevansi metrik. Antarmuka pengguna mengelola interaksi dengan
pengguna: masukan query dan output dari dokumen peringkat, termasuk
visualisasi hasil. Operasi permintaan dapat mengubah query untuk
meningkatkan pengambilan (ekspansi query menggunakan sinonim dari
tesaurus, transformasi query menggunakan umpan balik relevansi).
Bobot dalam matriks dapat 1 jika istilah itu muncul dalam dokumen dan 0
jika tidak (Bobot biner); tapi istilah yang lebih sering dalam dokumen yang
lebih penting, yaitu, lebih indikasi dari topik. Oleh karena itu baik untuk
menggunakan frekuensi istilah sebagai beban.
Latent Semantic Indexing
Latent Semantic Indexing (LSI) merupakan perluasan dari metode
pengambilan ruang vektor (Deerwester et al., 1990). LSI bisa mengambil
dokumen yang relevan bahkan ketika mereka tidak berbagi kata-kata dengan
query. Kata kunci diganti dengan konsep-konsep ("laten" konsep, bukan yang
eksplisit). Oleh karena itu jikahanya sinonim dari kata kunci hadir dalam
dokumen, dokumen akan masih ditemukan relevan. Ide di balik LSI adalah
mengubah matriks dokumen oleh istilah dalam lebih matriks terkonsentrasi
dengan mengurangi dimensi dari ruang vektor. Jumlah dimensi menjadi jauh
lebih rendah, tidak ada lagi dimensi untuk setiap istilah, melainkan dimensi
untuk masing-masing "laten" konsep atau kelompok sinonim (meskipun tidak
jelas apa adalah jumlah yang diinginkan konsep). Dimensi dari matriks
dikurangi dengan proses matematis yang disebut singular nilai dekomposisi.
Probabilistic Model
Kerangka probabilistik, awalnya diusulkan oleh Robertson dan SparckJones (1976), didasarkan pada gagasan berikut. Mengingat permintaan
pengguna, ada satu set dokumen yang mengandung persis dokumen yang
relevan dan tidak ada dokumen lain, yang disebut ideal jawaban set. query
adalah proses untuk menentukan sifat dari jawaban set, tetapi kita tidak
tahu apa sifat ini. Oleh karena itu upaya telah dilakukan untuk menebak
deskripsi jawaban set dan mengambil sebuah awal mengatur dokumen.
Kemudian pengguna memeriksa dokumen atas diambil, mencari yang
relevan yang. Sistem IR menggunakan informasi ini untuk memperbaiki
deskripsi ideal jawaban set. Oleh mengulangi proses ini, diharapkan bahwa
deskripsi yang ideal jawaban set akan meningkatkan.
Relevansi Masukan
Para pengguna cenderung bertanya pertanyaan singkat, bahkan ketika
informasi kebutuhan yang kompleks. tidak relevan dokumen yang akan
diambil sebagai jawaban karena pada ambiguitas dari bahasa alami (kata
memiliki beberapa indra). Jika kita tahu bahwa beberapa dokumen diambil
yang relevan dengan query, istilah dari dokumen-dokumen dapat
ditambahkan ke query agar dapat mengambil lebih dokumen yang relevan.
Ini disebut umpan balik relevansi. Seringkali, hal ini tidak mungkin untuk
meminta pengguna untuk menilai relevansi dokumen diambil. Dalam kasus
pseudo-relevansi ini metode umpan balik dapat digunakan. Mereka
menganggap beberapa dokumen yang diambil pertama relevan dan
menggunakan paling istilah penting dari mereka untuk memperluas query.