Keyword, Query : adalah inputan kata kunci pencarian yang diberikan pengguna kepada
Mesin Pencari (Search Engine) misalnya : Google, Yahoo, Being, Ask dll.
Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari
kata-kata (token)
Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu Proses Crawling, Proses Indexing dan
Proses Surving.
a). Proses Crawling
Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan
istilah robot, atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website
untuk di indeks pada google server.
Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk
meng-crawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu
algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering,
dan berapa banyak halaman yang akan di indeks.
Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website,
menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google
indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.
b). Proses Indexing
Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh
googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan
oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian
berdasarkan kata kunci (keywords) yang kita cari.
Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya
konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan
beberapa informasi halaman lainnya.
c). Proses Surving
Surving adalah suatu proses dalam menampilkan suatu halaman tertentu merujuk kepada kata
kunci yang dimasukkan oleh pengguna. Keterhubungan antara bagaimana hasil akan ditampilkan
dengan kata kunci ditentukan oleh kurang lebih 200 faktor.
Salah satu faktor penentu yang terkenal yang digunakan untuk menampilkan hasil pencarian
adalah page rank. Dengan page rank, suatu halaman ditampilkan sesuai dengan urutan dengan
cara halaman yang terbanyak di akses ditampilkan pertama.
Ketiga proses tersebut di atas dilakukan dalam waktu yang sangat cepat dan disajikan kepada
pengguna ditambah dengan penjelasan jumlah penemuan dll.
Masa Depan IR
Berikut merupakan sejarah perkembangan information retrieval dari masa ke masa (dikutip dari
Wikipedia)
Tahun 1880-an : Herman Hollerith menciptakan rekaman data pada media mesin yang dapat
dibaca.
Tahun 1890 Hollerith kartu, kunci dan tabulasi pukulan yang digunakan untuk mengolah data
Sensus AS 1890.
Tahun 1940-an: Masalah-masalah dihadapi militer AS pengindeksan dan pengambilan dokumen
perang penelitian ilmiah yang diambil dari Jerman.
Tahun 1945: Vannevar Bush As We May Think muncul di Atlantic Monthly.
Tahun 1947: Hans Peter Luhn (penelitian insinyur di IBM sejak 1941) mulai bekerja pada sistem
kartu punch berbasis mekanik untuk mencari senyawa kimia.
Tahun 1950: Tumbuh kekhawatiran di Amerika Serikat untuk sebuah kesenjangan ilmu
pengtahuan dengan Uni Soviet termotivasi, pendanaan mendorong dan memberikan sarana
mencari sistem (Allen Kent et al.) Dan penemuan pengindeksan kutipan (Eugene Garfield).
Tahun 1950: Istilah Information Retrieval telah diciptakan oleh Calvin Mooers.
1951: Philip Bagley melakukan percobaan awal dalam pengambilan dokumen terkomputerisasi
dalam sebuah tesis master di MIT.
1955: Allen Kent bergabung dengan Case Western Reserve University, dan akhirnya menjadi
direktur Pusat Dokumentasi dan Komunikasi Penelitian. Tahun yang sama, Kent dan koleganya
menerbitkan hasil penelitian di Amerika yang menjelaskan secara rinci dan proses recall serta
menjelaskan suatu kerangka yang diusulkan untuk mengevaluasi sistem IR yang meliputi
metode sampling statistik untuk menentukan jumlah dokumen relevan yang tidak diambil.
1958: Konferensi Internasional Informasi Ilmiah Washington DC mempertimbangkan sistem IR
sebagai solusi untuk masalah yang diidentifikasi.
1959: Hans Peter Luhn menerbitkan pengkodean dokumen secara otomatis untuk pengambilan
informasi.
1960-an: Gerard Salton mulai bekerja pada IR di Harvard, kemudian pindah ke Cornell.
1960: Melvin Earl (Bill) Maron dan John Lary Kuhns menerbitkan Relevansi, pengindeksan
probabilistik, dan IR dalam Journal pada ACM
1962: Cyril W. Cleverdon menerbitkan temuan awal dari studi Cranfield, mengembangkan suatu
model untuk evaluasi sistem IR. Lihat: Cyril W. Cleverdon, Laporan Pengujian dan Analisis
sebuah Investigasi ke Efisiensi Perbandingan Pengindeksan Sistem. Koleksi Cranfield
Penerbangan, Inggris Cranfield,, 1962.
Kent diterbitkan Analisis Informasi dan Retrieval.
1963: Weinberg laporan Ilmu, Pemerintah dan Informasi memberikan artikulasi penuh gagasan
krisis informasi ilmiah. Laporan itu dinamai Dr Alvin Weinberg.
Yusuf Becker dan Robert M. Hayes menerbitkan teks pada pencarian informasi. Becker, Joseph;
Hayes, Mayo Robert. Penyimpanan informasi dan pengambilan: alat, elemen, teori. New York,
Wiley (1963).
1964: Karen Sprck Jones menyelesaikan tesis nya di Cambridge, Klasifikasi sinonim dan
Semantic, dan bekerja pada linguistik komputasi yang dipersiapkan untuk IR.
Biro Standar Nasional mensponsori simposium berjudul Asosiasi Statistik Metode Dokumentasi
Mekanik. Beberapa penemuan sangat signifikan, termasuk referensi pertama G. Salton s
diterbitkan. National Library of Medicine dikembangkan oleh MEDLARS Kedokteran, Sastra,
Analisis dan Retrieval System, database dapat dibaca oleh mesin besar pertama dan sistem batch-
retrieval.
1965: JCR Licklider menerbitkan Perpustakaan Masa Depan.
1966: Don Swanson terlibat dalam penelitian di University of Chicago pada Persyaratan untuk
Katalog Masa Depan.
1960-an: F. Wilfrid Lancaster menyelesaikan studi evaluasi sistem MEDLARS dan menerbitkan
edisi pertama teks tentang pencarian informasi.
1968: Gerard Salton menerbitkan Otomatis Informasi Organisasi dan Retrieval.
John W. Sammon, Jr s RADC melaporkan Tech Matematika Informasi Penyimpanan dan
Retrieval diuraikan model vektor.
1969: Sammon A pemetaan linier untuk analisis struktur data (IEEE Transaksi di Komputer)
merupakan proposal pertama untuk antarmuka visualisasi untuk sistem IR.
awal 1970-an : Pertama online sistem-NLM AIM-Twx, MEDLINE; Lockheeds Dialog; Orbit
SDCs. Theodor Nelson mempromosikan konsep hypertext, diterbitkan Komputer Lib / Dream
Machines.
1971: Nicholas Jardine dan Cornelis J. van Rijsbergen menerbitkan Penggunaan clustering
hierarkis dalam temu balik informasi, yang diartikulasikan dengan hipotesis cluster.
1975: Tiga publikasi sangat berpengaruh oleh Salton sepenuhnya diartikulasikan pemrosesannya
menggunakan vektor kerangka kerja dan model untuk Pengindeksan Otomatis.
1979: CJ van Rijsbergen diterbitkan Information Retrieval (Butterworths). Berat penekanan pada
model probabilistik.
1980: Pertama internasional ACM SIGIR konferensi, bersama dengan kelompok British Society
Komputer IR di Cambridge.
1982: Nicholas J. Belkin, Robert N. Oddy, dan Helen M. Brooks mengusulkan sudut pandang
untuk pengambilan informasi. Ini merupakan konsep penting, meskipun alat analisis otomatis
mereka ternyata akhirnya mengecewakan.
1983: Salton (dan Michael J. McGill) menerbitkan Pengenalan Information Retrieval Modern
(McGraw-Hill), dengan penekanan pada model vektor.
1985: Blair dan Maron mempublikasikan: Sebuah Evaluasi Efektivitas Retrieval untuk
Dokumen-Temu-Full Teks Sistem
pertengahan 1980-an: Upaya untuk mengembangkan versi pengguna akhir sistem IR komersial.
1985-1993: Kunci makalah dan sistem eksperimental untuk antarmuka visualisasi.
Bekerja oleh Donald B. Crouch, Robert R. Korfhage, Matius Chalmers, Anselmus Spoerri dan
lain-lain.
Pada tahun 1989 ditemukannya World Wide Web (WWW) oleh Tim Berners-Lee, awal
kebangkitan information retrieval, sejak itu internet menawarkan berbagai pasilitas seperti email,
ftp, dan berbagi berita (news).
akhir 1990-an: Web search engine mengeluarkan banyak fitur baru yang sebelumnya hanya
ditemukan di sistem IR eksperimental. Search engine menjadi Instansiasi yang paling umum dan
menjadi model IR terbaik.
Dilihat dari sejarah dan perkembangannya maka, IR dimasa depan akan lebih memiliki peran
yang sangat penting untuk memenuhi kebutuhan masyarakat dalam kehidupan sehari-hari.