Anda di halaman 1dari 12

TUGAS RESUME INFORMATION RETRIEVAL

NAMA

: YANUAR PAMBUDI

NIM

: A11.2013.07590

KEL

: A11.4802

Information Retrieval on the Internet

Abstrak :
Komponen utama dari search engine adalah web crawler yang berfungi
untuk mengumpulkan laman web dan sistem Information Retrival yang
memiliki tugas mengambil dokumen atau teks yang sesuai dengan
permintaan pengguna. Dalam paper ini penelitian lebih dititik beratkan pada
web crawling, model pengambilan informasi, dan metode yang digunakan
untuk mengevaluasi kinerja pengambilan informasi. Praktis pertimbangan
mencakup informasi tentang sistem IR yang sudah ada dan sebagai contoh
berskala besar yaitu mesin pencari (Google), termasuk ide oeringkat
halaman web sesuai dengan kepentingan mereka (yaitu hubungan tentang
algoritma Authorities dan algoritma Google PageRank). Kemudian kami juga
membahas web yang tidak terlihat, yaitu bagian web yang tidak di indeks
oleh search engine. Secara singkat jenis lain dari sistem Information
Retrieval yaitu : Perpustakaan digital, Sistem pengambilan multimedia
(music, video, dll), dan Sistem IR terdistribusi. Kami menyimpulkan dengan
diskusi tentang web semantic dan tren masa depan dalam memvisuaisasikan
hasil pencarian dan memasukkan query dalam Bahasa alami.
Pendahuluan

Sangat banyak sekali teks, audio, video dan dokumen lain yang
tersedia pada internet, pada topik apapun. Pengguna harus menemukan
informasi yang relevan untuk memuaskan mereka dalam mencari informasi
tertentu. Ada 2 cara untuk mencari informasi, yaitu : Menggunakan mesin
pencarian (search engine) dan Browsing direktori yang disediakan olek
kategori (seperti yahoo direktori). Ada sebagian besar dari internet yang
tidak dapat diakses (misalnya database pribadi dan intranet).
Information Retrieval (IR) memiliki tugas untuk merepresentasikan,
menyimpan, mengorganisir, dan memberi akses item informasi. IR berbeda
dengan pengambilan data, dimana IR berbicara tentang menemukkan data
yang tepat dalam database dengan struktur terterntu. Dalam sistem IR,
informasi tidak terstruktur terkandung dalam bentuk bebas, baik berupa teks
(halaman web atau dokumen lainnya) atau konten multimedia. Pertama
sistem IR diyang dikembangkan pada tahun 1970 ini dirancang untuk beerja
dengan mengoleksi teks-teks kecil (misaknya digunakan dalam dokumen
hukum). Beberapa teknik ini sekarang digunakan di mesin pencari (search
engine).
Dalam paper ini dijelaskan tentang pencarian informasi dengan focus
pada tantangan yang dihadapi oleh mesin pencari. Salah satunya tantangan
tertentu adalah skala besar, mengingat dengan besarnya laman web yang
tersedia di internet (misalnya, sekitar 8 miliar halaman web yang diindeks
oleh Gooogle pada tahun 2005). Tantangan lain adalah melekat pada setiap
sistem IR yang begrhubungan dengan teks: abiguitas dari Bahasa alami
(Bahasa Inggris atau Bahasa lain) yang membuatnya sulit untuk memiliki
perbandingan yang sempurna antara dokumen dan query penguna.
SEARCH ENGINE
Ada banyak tujuan umum mesin pencari yang tersedia di Web. Sebuah
sumber daya yang berisi informasi upto-date pada mesin pencari yang paling
sering digunakan adalah:
http://www.searchenginewatch.com.

Berikut adalah beberapa mesin pencari populer :


AllTheWeb http://www.alltheweb.com/
AltaVista http://www.altavista.com/
Excite http://www.excite.com/
Google http://www.google.com/
Hotbot http://www.hotbot.com/
Lycos http://www.lycos.com/
MSN Search http://search.msn.com/
Teoma http://teoma.com/
WiseNut http://www.wisenut.com/
Yahoo! http://search.yahoo.com/

Sejarah Search Engine


Alat ini pertama digunakan untuk mencari di Internet disebut Archie
(nama singkatan
"Arsip"). Ini diciptakan pada tahun 1990 oleh Alan Emtage, seorang
mahasiswa di McGill University di Montreal. Program tersebut mendownload
daftar direktori dari semua file yang terletak di FTP anonim public situs,
menciptakan database dicari nama file. Gopher diciptakan pada tahun 1991
oleh Mark McCahill di University of Minnesota. Sementara Archie diindeks
nama file, Gopher diindeks teks biasa dokumen. Dua program lainnya,
Veronica dan Jughead, mencari file yang tersimpan di Gopher Sistem indeks.
Mesin pencari Web pertama kali digunakan Wandex, indeks sekarang
sudah tidak berfungsi dikumpulkan oleh Dunia Web Wanderer lebar, web
crawler yang dikembangkan oleh Matthew Gray di MIT pada tahun 1993. Lain
sangat mesin pencari awal, Aliweb, juga muncul pada tahun 1993, dan masih
berjalan hingga saat ini. Pertama "full text" mesin pencari berbasis crawler
adalah WebCrawler, 1994. Tidak seperti pendahulunya, itu memungkinkan
pengguna menelusuri untuk setiap kata dalam setiap halaman web; ini
menjadi standar untuk semua mesin pencari utama sejak. Itu juga yang

pertama untuk secara luas dikenal masyarakat. Juga pada tahun 1994, Lycos
(yang dimulai pada Carnegie Mellon University) keluar, dan menjadi usaha
komersial utama.
Fitur dan Layanan Search Engine
Search Engine memungkinkan penggunanya untuk memasukkan kata
kunci masukanyang menggambarkan kebutuhan informasi. Selain itu juga
menawarkan kemampuan pencarian lanjutan. Meskipun mereka
menyebabkan pencarian lebih tepatm mereka kurang dimanfaatkan oleh
pengguna. Secara singkat akan dibahas tentang beberapa fitur pencarian
lanjutan. Fitur Boolean (AND, OR, NOT) yang memungkinkan pengambilan
dokumen yang mengandung semua kata kunci (AND), salah satu kata kunci
(OR), mengecualikan beberapa kata (NOT), atau kombinasi dari operator
Boolean. Fitur pendekatan pencarian untuk frase atau kata-kata berturutturut (biasanya pencarian sederhana dapat melakukan ini jika kata-kata
dikelilingi oleh tanda kutip ganda). pencarian dapat dilakukan hanya dalam
bidang tertentu, seperti URL atau judul. Batas dapat dikenakan pada jenis
halaman diambil: tanggal, bahasa, jenis file, dll.
Beberapa mesin pencari juga menawarkan layanan: direktori berita,
pencarian gambar, peta (seperti Google Maps), alat-alat bahasa (seperti alat
terjemahan otomatis atau interface pada khususnya bahasa), pencarian
newsgroup, dan pencarian khusus lainnya.
Arsitektur Search Engine
Komponen mesin pencari adalah: Web crawler (mengumpulkan
halaman web), pengindeksan (Mewakili dan menyimpan informasi),
pengambilan (mampu mengambil dokumen yang relevan untuk permintaan
pengguna), dan peringkat hasil sesuai dengan relevansi. Gambar 1
menyajikan penyederhanaan komponen dari mesin pencari. Rincian lebih
lanjut tentang modul utama, sistem IR, akan mengikuti pada bagian
selanjutnya.

WEB CRAWLING
Web crawler, juga dikenal sebagai laba-laba atau robot, memiliki tugas
untuk mengumpulkan halaman web untuk membangun koleksi teks untuk
sistem IR. teks diekstrak dari kode HTML dari halaman web. Beberapa
informasi yang terkait dengan format HTML dapat disimpan juga. Misalnya,
teks dalam pos atau dalam huruf tebal dapat diberi bobot lebih tinggi dari
sisa teks.
Sebuah crawler dimulai dengan satu atau lebih alamat http (satu set
URL root), dan mengikuti semua link pada halaman ini secara rekursif, untuk
menemukan halaman tambahan. Hal ini dapat dilanjutkan oleh pencarian
depth-first (Ikuti link pertama di halaman dan semua link di halaman baru
yang mengarah ke, kemudian kembali untuk mengikuti sisa link di halaman
ini) atau dengan pencarian breadth-first (mengikuti semua link di halaman
untuk satu langkah, maka link di halaman mereka ke titik, untuk satu
langkah, dll).
Untuk mengekstrak link dari halaman web untuk mengumpulkan calon
link untuk mengikuti, HTML bidang hyperlink yang diurai. Berikut adalah dua
contoh dari hyperlink:
<a href=http://www.site.uottawa.ca/~diana/csi4107>
<frame src=site-index.html>

Jika URL tidak ditentukan, seperti dalam contoh terakhir, link relatif ke URL
arus basis. Jika nama file tidak ditentukan, nama default digunakan (seperti
index.hml). Link yang dimasukkan ke dalam bentuk kanonik: slash berakhir
dihapus, jika ada satu; referensi internal dalam yang sama Halaman dihapus,
dll. Setelah halaman dikumpulkan, teks diekstrak dari HTML dokumen, untuk
diproses oleh sistem IR.
Protokol robot pengecualian digunakan untuk mencegah situs tertentu
atau halaman web dari menjadi diindeks oleh crawler Web. situs web dan
halaman dapat menentukan bahwa robot tidak harus merangkak atau indeks
daerah-daerah tertentu, dengan menggunakan Robots Exclusion Protocol
atau robot meta tag. Yang kedua adalah baru dan kurang baik diadopsi dari
yang pertama. Standar-standar ini adalah konvensi yang harus diikuti oleh
"robot baik". Mereka tidak dapat ditegakkan, tetapi perusahaan telah
dituntut untuk "Mematuhi" konvensi ini dan "pelanggaran" pada dunia maya
pribadi.
The Robots Exclusion Protocol
Robots Exclusion Protocol adalah spesifikasi seluruh situs direktori
dikecualikan. situs ini
administrator harus menempatkan "robots.txt" file pada root direktori web
host. Lihat untuk
contohhttp://www.ebay.com/robots.txt. The file "robots.txt" adalah daftar
direktori dikecualikan untuk robot diberikan (user-agent). File ini berisi baris
kosong untuk memisahkan user-agent yang berbeda dianulir direktori,
dengan satu direktori per "Disallow" baris. Tidak ada ekspresi reguler dapat
digunakan sebagai pola direktori.
Robot Meta Tag
Tag dokumen tertentu dapat digunakan untuk mengecualikan
pengindeksan atau link berikut di tertentu halaman web. Bagian HEAD
dokumen HTML tertentu dapat mencakup meta tag robot, seperti sebagai
<meta name = "robots" content = "none">. Nilai konten dapat menjadi

sepasang nilai untuk dua aspek: indeks atau noindex untuk memungkinkan
atau pelarangan pengindeksan halaman ini, dan ikuti atau nofollow untuk
mengizinkan atau pelarangan mengikuti link di halaman ini. Ada dua nilainilai khusus: semua = indeks, ikuti dan tidak ada = noindex, nofollow.
contoh:
<Meta name = "robots" content = "noindex, ikuti">
<Meta name = "robots" content = "index, nofollow">
<Meta name = "robots" content = "none">
INFORMATION RETRIEVAL SYSTEM
Gambar 2 menyajikan pandangan yang lebih rinci dari arsitektur
sistem IR (Baeza-Yates dan Berthier Ribeiro-Neto, 1999). Operasi teks
digunakan untuk preproses dokumen koleksi
dan untuk mengekstrak kata indeks. Modul pengindeksan membangun
indeks terbalik dari kata-kata untuk pointer dokumen. Modul pencarian
mengambil dokumen yang berisi diberikan kata-kata query, menggunakan
indeks terbalik. Skor modul peringkat semua dokumen yang diambil menurut
relevansi metrik. Antarmuka pengguna mengelola interaksi dengan
pengguna: masukan query dan output dari dokumen peringkat, termasuk
visualisasi hasil. Operasi permintaan dapat mengubah query untuk
meningkatkan pengambilan (ekspansi query menggunakan sinonim dari
tesaurus, transformasi query menggunakan umpan balik relevansi).

Model Information Retrieval

Bagian ini menyajikan model pencarian informasi yang dapat diterapkan


pada koleksi teks. Tidak semua model IR mudah ditingkatkan untuk dapat
menangani dengan koleksi yang sangat besar, seperti halaman yang
dikumpulkan dari Web. Model IR yang paling penting adalah: Boolean Model,
yang Model Ruang Vektor, dan Model probabilistik. Berbagai ekstensi dari
model ini mungkin. Kami membahas salah satu dari mereka di sini, Latent
Semantic Indexing, yang merupakan perpanjangan dari Model Ruang Vektor.
Boolean Model
Model Boolean adalah yang paling sederhana untuk melaksanakan.
Dokumen direpresentasikan sebagai sekumpulan kata kunci. Query adalah
ekspresi Boolean kata kunci, terhubung dengan AND, OR, dan NOT, termasuk
penggunaan tanda kurung untuk menunjukkan ruang lingkup operator ini.
Misalnya, pertanyaan "semua hotel di Rio Brazil atau Hilo Hawaii, tetapi tidak
Hilton "diketik oleh pengguna sebagai: [[Rio & Brasil] | [Hilo & Hawaii]] &
hotel &! Hilton] Output dari sistem ini adalah daftar dokumen yang relevan,
tetapi tidak akan ada parsial
cocok atau peringkat. Model Boolean sangat kaku: AND berarti "semua"; OR
berarti "setiap". Semua dokumen yang cocok akan dikembalikan, sehingga
sulit untuk mengontrol jumlah dokumen diambil. Semua dokumen yang
cocok memenuhi permintaan ke tingkat yang sama; yang membuat sulit
untuk peringkat output. Kelemahan lain dari model ini adalah bahwa itutidak
mudah bagi pengguna untuk mengekspresikan query yang kompleks.
Model Ruang Vektor
Model ruang vektor pencarian informasi adalah metode statistik yang
sangat sukses diusulkan oleh Salton (1989). Ini menghasilkan vektor jangka
tertimbang untuk setiap dokumen dalam koleksi, dan untuk query pengguna.
Maka pengambilan didasarkan pada kesamaan antara vektor query
danvektor dokumen. Dokumen-dokumen output peringkat menurut
kesamaan ini. Kesamaan didasarkan pada frekuensi terjadinya kata kunci
dalam query dan dokumen. Mari kita berasumsi bahwa t hal yang berbeda
tetap setelah preprocessing; mari kita sebut mereka istilah Indeks atau kosa

kata. Istilah-istilah ini membentuk ruang vektor dengan dimensi t, ukuran


kosa kata. Setiap i istilah, dalam dokumen j, diberikan bobot w. Kedua
dokumen dan query dinyatakan sebagai vektor t-dimensi: dj = (w1j, w2j, ...,
wtj).
Sebuah koleksi dokumen N dapat direpresentasikan dalam model ruang
vektor oleh
Tj dokumen-by-hal matrix. Entri dalam matriks sesuai dengan "berat" dari
istilah dalam
dokumen; nol berarti istilah tidak memiliki arti dalam dokumen; itu hanya
tidak muncul di
dokumen. matriks cenderung mengandung banyak angka nol.

Bobot dalam matriks dapat 1 jika istilah itu muncul dalam dokumen dan 0
jika tidak (Bobot biner); tapi istilah yang lebih sering dalam dokumen yang
lebih penting, yaitu, lebih indikasi dari topik. Oleh karena itu baik untuk
menggunakan frekuensi istilah sebagai beban.
Latent Semantic Indexing
Latent Semantic Indexing (LSI) merupakan perluasan dari metode
pengambilan ruang vektor (Deerwester et al., 1990). LSI bisa mengambil
dokumen yang relevan bahkan ketika mereka tidak berbagi kata-kata dengan
query. Kata kunci diganti dengan konsep-konsep ("laten" konsep, bukan yang
eksplisit). Oleh karena itu jikahanya sinonim dari kata kunci hadir dalam
dokumen, dokumen akan masih ditemukan relevan. Ide di balik LSI adalah
mengubah matriks dokumen oleh istilah dalam lebih matriks terkonsentrasi
dengan mengurangi dimensi dari ruang vektor. Jumlah dimensi menjadi jauh

lebih rendah, tidak ada lagi dimensi untuk setiap istilah, melainkan dimensi
untuk masing-masing "laten" konsep atau kelompok sinonim (meskipun tidak
jelas apa adalah jumlah yang diinginkan konsep). Dimensi dari matriks
dikurangi dengan proses matematis yang disebut singular nilai dekomposisi.
Probabilistic Model
Kerangka probabilistik, awalnya diusulkan oleh Robertson dan SparckJones (1976), didasarkan pada gagasan berikut. Mengingat permintaan
pengguna, ada satu set dokumen yang mengandung persis dokumen yang
relevan dan tidak ada dokumen lain, yang disebut ideal jawaban set. query
adalah proses untuk menentukan sifat dari jawaban set, tetapi kita tidak
tahu apa sifat ini. Oleh karena itu upaya telah dilakukan untuk menebak
deskripsi jawaban set dan mengambil sebuah awal mengatur dokumen.
Kemudian pengguna memeriksa dokumen atas diambil, mencari yang
relevan yang. Sistem IR menggunakan informasi ini untuk memperbaiki
deskripsi ideal jawaban set. Oleh mengulangi proses ini, diharapkan bahwa
deskripsi yang ideal jawaban set akan meningkatkan.
Relevansi Masukan
Para pengguna cenderung bertanya pertanyaan singkat, bahkan ketika
informasi kebutuhan yang kompleks. tidak relevan dokumen yang akan
diambil sebagai jawaban karena pada ambiguitas dari bahasa alami (kata
memiliki beberapa indra). Jika kita tahu bahwa beberapa dokumen diambil
yang relevan dengan query, istilah dari dokumen-dokumen dapat
ditambahkan ke query agar dapat mengambil lebih dokumen yang relevan.
Ini disebut umpan balik relevansi. Seringkali, hal ini tidak mungkin untuk
meminta pengguna untuk menilai relevansi dokumen diambil. Dalam kasus
pseudo-relevansi ini metode umpan balik dapat digunakan. Mereka
menganggap beberapa dokumen yang diambil pertama relevan dan
menggunakan paling istilah penting dari mereka untuk memperluas query.

EVALUASI INFORMATION RETRIEVAL SISTEM


Untuk membandingkan kinerja sistem pencarian informasi ada
kebutuhan untuk tes standar koleksi dan benchmark. Forum TREC (Text
Retrieval Conference, http://trec.nist.gov/) menyediakan koleksi tes dan
mengatur persaingan antara sistem IR setiap tahun, sejak tahun 1992.
Dalam rangka untuk menghitung skor evaluasi, kita perlu mengetahui solusi
yang diharapkan. Hubungan penilaian diproduksi oleh hakim manusia dan
termasuk dalam koleksi tes standar. KUNCI MUSIK (Cross-Bahasa Evaluasi
Forum) adalah forum evaluasi lain yang menyelenggarakan kompetisi antara
sistem IR yang memungkinkan query atau dokumen dalam berbagai bahasa
(http://www.clefcampaign.org/), sejak itu tahun2000.
Dalam rangka untuk mengevaluasi kinerja sistem IR kita perlu
mengukur seberapa jauh daftar peringkat dari hasil akan pengguna perlu
untuk melihat ke menemukan beberapa atau semua dokumen yang relevan.
Proses evaluasi yang khas dimulai dengan menemukan koleksi dokumen.
Satu set query perlu dirumuskan. Kemudian satu atau lebih pakar manusia
diperlukan untuk mendalam label dokumen yang relevan untuk setiap
permintaan. Ini mengasumsikan penilaian relevansi biner: dokumen adalah
relevan atau tidak untuk query. Ini adalah penyederhanaan, karena relevansi
kontinu: a Dokumen dapat relevan untuk tingkat tertentu. Bahkan jika
relevansi adalah biner, dapat menjadi sulit penghakiman untuk membuat.
Relevansi, dari sudut pandang manusia, adalah subjektif karena tergantung
pada penghakiman pengguna tertentu; itu situasional, berkaitan dengan
kebutuhan pengguna saat ini; Tergantung pada persepsi dan perilaku
manusia; dan mungkin dinamis, dapat berubah dari waktu ke waktu.

KESIMPULAN DAN SARAN


Bab ini disajikan gambaran dari metode yang digunakan dalam
pencarian informasi dan pencarian mesin. Teknologi mesin pencari adalah
bidang yang sangat dinamis, selalu mencari

perbaikan dan ide-ide baru untuk memenuhi kebutuhan pengguna. tren


masa depan di mesin pencari termasuk teknologi yang belum dalam tahap
prototipe penelitian. sistem IR multimedia padaWeb menjadi lebih penting,
karena lebih video, musik, dan jenis-jenis data yang tersedia
di Web dan akses Internet yang cepat menjadi umum.
Bahasa Query alami
sistem IR berbasis teks juga akan berkembang. Pengguna bisa
mengungkapkan permintaan mereka dalam bahasa alami, bukan hanya
sebagai kata kunci. Hal ini memerlukan analisis sintaksis dan semantik lebih
dalam permintaan dan dokumen. Yang memungkinkan pengguna untuk
secara lisan menjelaskan informasi yang perlu menjadi mikrofon adalah cara
alami lebih untuk berinteraksi dengan mesin pencari (Crestani, 2002).
pertanyaan lisan harus diterjemahkan ke dalam query teks menggunakan
sistem Speech Recognition (meskipun pidato saat teknologi pengenalan akan
memperkenalkan kesalahan pengakuan yang mungkin menyakiti kinerja
retrieval). Lintas bahasa sistem Information Retrieval menjadi tersedia
(Savoy, 2003). Query dapat menjadi bahasa di mana pengguna merasa
nyaman, sedangkan dokumen dalam bahasa lain. Hal ini memerlukan
terjemahan otomatis dari pertanyaan sebelum pencocokan mereka untuk
dokumen untuk pengambilan.
Visualisasi dan Kategorisasi Hasil
mesin pencari cenderung mengambil banyak dokumen untuk
menjawab permintaan pengguna. Seringkali pengguna hanya melihat pada
10 dokumen pertama. Ketika recall di penting untuk pengguna, daftar
panjang bukanlah cara yang baik, menampilkan hasil. daftar tidak
menunjukkan distribusi dari berbagai kategorijawaban. Berbagai ide-ide yang
mencoba untuk menyajikan hasil dengan cara yang lebih mudah dikelola,
untuk Misalnya peta 2 dimensi atau visualisasi 3-dimensi (Chen et al., 1998).
Otomatis teknik clustering dapat digunakan untuk menemukan kelompok
dokumen sejenis. Setiap cluster akan kemudian menjadi objek dalam
representasi visual.

Anda mungkin juga menyukai