Anda di halaman 1dari 5

Pengertian, Cara Kerja dan Masa depan Information Retrieval

Pengertian, Cara Kerja dan Masa Depan Information Retrieval


1. Information Retrieval (IR) atau sering disebut temu kembali infromasi adalah ilmu yang
mempelajari prosedur-prosedur dan metode-metode untuk menemukan kembali infromasi yang
tersimpan dari berbagai sumber (resources) yang relevan atau koleksi sumber informasi yang
dicari atau dibutuhkan. Dengan tindakan index (indexing), panggilan (searching), pemanggilan
data kembali (recalling).
Dalam pencarian data, beberapa jenis data dapat ditemukan diantaranya texts, table, gambar
(image), video, audio. Adapun tujuan dari Infromation Retrieval ialah untuk memenuhi informasi
pengguna dengan cara meretrieve dokumen yang relevan atau menguragi dokumen pencarian
yang tidak relevean.

Definisi Information Retrieval


Secara Konsep sederhana IR merupakan proses mencari, dan kemudain mendapatkan apa yang
dicari itu. Jika kita titik beratkan kepada prosesnya maka didalamnya akan terungkap bagaimana
perjalanan informasi yang diminta, menjadi infromasi yang diberikan. Menurut beberapa ahli IR
didefinisikan sebagai berikut :
Menurut Kowalaski :
Informasi Retrieval adalah konsep sederhana dalam pencarian yang dilakukan oleh seseorang.
seperti contoh ketika user akan mencari informasi yang dia butuhkan, maka sistem
menerjemahakan kepada bentuk statment yang kemudian di eksekusi oleh sistem pencari.
William Hersh Menyatakan :
Information Retrieval adalah bidang di persimpangan ilmu informasi dan ilmu komputer.
Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan
sebagian besar-tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan
bahwa diterapkan ke aspek intelektual deskripsi informasi dan sistem untuk pencarian
(Mooers, 1951).
Kutipan Dari Wikipedia :
Wikipedia menjelaskan Information Retrieval (IR) adalah seni dan ilmu mencari informasi dalam
dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau
mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext
jaringan seperti Internet atau intranet, untuk teks , suara, gambar, video atau data.
Dari ketiga rujukan definisi diatas, sudah jelas dimaksudkan bahwa information retrevial
adalah bidang keilmuan dalam Teknologi informasi yang menjelaskan tentang Pencarian dan
Pengambilan Kembali Informasi.
Keilmuan ini mengungkapkan bagaimana metode metode pencarian informasi yang dilakukan
oleh end user dari gudang gudang penyimpanan yang bersekala besar, contoh sederhananya
adalah media penyimpanan kita sendiri.
Terkadang ketika semakin banyak data yang kita simpan dalam sebuah media penyimpanan tak
jarang kita akan lupa dimana kita meletakan data yang kita simpan tadi, sehingga kita melakukan
proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools pencarian atau bisa
dengan memeriksa satu persatu tempat penyimpanan data kita.
Dalam studi kasus yang lebih kompleks, penerapan IR adalah Search Engine (Mesin Pencari)
seperti google, yahoo, bing dll. SE merupakan implementasi yang sangat kompleks dari IR
Cara Kerja Information Retrieval (IR)
Untuk menemukan informasi relevan yang kita cari, maka dibutuhkan kata kunci (Keyword,
Query) yang sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami
penggunaan kata kunci yang tepat, karena dengan keyword yang seusai maka proses pencarian
dalam index di mesin IR akan cepat, sehingga korpus yang sesuai dengan kata kunci yang
dimasukan akan ditampilkan kembali kepada si end user.

Keyword, Query : adalah inputan kata kunci pencarian yang diberikan pengguna kepada
Mesin Pencari (Search Engine) misalnya : Google, Yahoo, Being, Ask dll.

Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari
kata-kata (token)

Korpus : adalah kumpulan dokumen yang disalin ke mesin SE misalnya Google


menjepret seluruh halaman website yang bisa diakses umum (tanpa login terlebih
dahulu) kemudian menyalinnya ke SE di servernya.

Bagaimana mesin IR menyalin dokumen-dokumen yang berada di dunia maya? Mesin IR


memiliki robot (BOT) sejenis program yang bisa disebut juga dengan crawler, program
tersebutlah yang kemudian berfungsi untuk menyalin dokumen atau informasi yang berada di
salah satu sumber misal website/blog ke server IR tersebut.
Kemudian cara kerja Information Retrieval (IR) dapat dijelaskan sebagai berikut :
Tokenisasi (tokenizing) atau word token adalah : Pemisahan deret kata dalam kalimat, paragrap
menjadi potongan kata tunggal (termed word) serta menghilangkan karakter-karakter dalam
tanda baca dan mengubah kumpulan termed menjadi huruf kecil (lower case). Contoh : "saya
belajar Information Retrieval" maka akan dihasilkan : "saya", "belajar", "information",
"retrieval".
Stopword removal atau seleksi / penyaringan (filtration) adalah: tahapan untuk mempersentasikan
suatu dokumen dapat mendeskripsikan isi dari suatu dokumen untuk membedakan isi dokumen
lain, dalam suatu istilah (term) akan mencari jumlah dokumen yang diangap paling relevan
didalam suatu inputan (query), suatu term yang sering ditampilkan atau digunakan diangap
sebagai stopword. Contoh : Operator Logika and, or, not, dan sebaginya. Maka stopword tersebut
akan menghapus, karna frekuwnsi dari kemunculan trem terlalu sering.
Pembuatan kata dasar (stemming) adalah : konversi dari trem ke bentuk akar (root) atau bentuk
umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa menemukan kata-kata
yang terkait dalam sebuah dokumen. Contoh : kita memasukan kata "menemukan" maka query
akan merekomendasikan, "memperoleh", "mengetahui", "memiliki", "mendapatkan" dan
setrusnya.
Proses pembobotan setiap term dalam dokumen (term weighting) yaitu dalam tahapan
pembobotan term skema dalam pembobotan dipilih berdasarkan pembobotan lokal, global atau
kedua-duanya (term frequency dan global inverse document frequency).

Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu Proses Crawling, Proses Indexing dan
Proses Surving.
a). Proses Crawling
Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan
istilah robot, atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website
untuk di indeks pada google server.
Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk
meng-crawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu
algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering,
dan berapa banyak halaman yang akan di indeks.
Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website,
menelusurinya satu-persatu, kemudian memasukkannya dalam daftar halaman pada google
indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis.
b). Proses Indexing
Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh
googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan
oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian
berdasarkan kata kunci (keywords) yang kita cari.
Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya
konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan
beberapa informasi halaman lainnya.
c). Proses Surving
Surving adalah suatu proses dalam menampilkan suatu halaman tertentu merujuk kepada kata
kunci yang dimasukkan oleh pengguna. Keterhubungan antara bagaimana hasil akan ditampilkan
dengan kata kunci ditentukan oleh kurang lebih 200 faktor.
Salah satu faktor penentu yang terkenal yang digunakan untuk menampilkan hasil pencarian
adalah page rank. Dengan page rank, suatu halaman ditampilkan sesuai dengan urutan dengan
cara halaman yang terbanyak di akses ditampilkan pertama.
Ketiga proses tersebut di atas dilakukan dalam waktu yang sangat cepat dan disajikan kepada
pengguna ditambah dengan penjelasan jumlah penemuan dll.
Masa Depan IR

Berikut merupakan sejarah perkembangan information retrieval dari masa ke masa (dikutip dari
Wikipedia)
Tahun 1880-an : Herman Hollerith menciptakan rekaman data pada media mesin yang dapat
dibaca.
Tahun 1890 Hollerith kartu, kunci dan tabulasi pukulan yang digunakan untuk mengolah data
Sensus AS 1890.
Tahun 1940-an: Masalah-masalah dihadapi militer AS pengindeksan dan pengambilan dokumen
perang penelitian ilmiah yang diambil dari Jerman.
Tahun 1945: Vannevar Bush As We May Think muncul di Atlantic Monthly.
Tahun 1947: Hans Peter Luhn (penelitian insinyur di IBM sejak 1941) mulai bekerja pada sistem
kartu punch berbasis mekanik untuk mencari senyawa kimia.
Tahun 1950: Tumbuh kekhawatiran di Amerika Serikat untuk sebuah kesenjangan ilmu
pengtahuan dengan Uni Soviet termotivasi, pendanaan mendorong dan memberikan sarana
mencari sistem (Allen Kent et al.) Dan penemuan pengindeksan kutipan (Eugene Garfield).
Tahun 1950: Istilah Information Retrieval telah diciptakan oleh Calvin Mooers.
1951: Philip Bagley melakukan percobaan awal dalam pengambilan dokumen terkomputerisasi
dalam sebuah tesis master di MIT.
1955: Allen Kent bergabung dengan Case Western Reserve University, dan akhirnya menjadi
direktur Pusat Dokumentasi dan Komunikasi Penelitian. Tahun yang sama, Kent dan koleganya
menerbitkan hasil penelitian di Amerika yang menjelaskan secara rinci dan proses recall serta
menjelaskan suatu kerangka yang diusulkan untuk mengevaluasi sistem IR yang meliputi
metode sampling statistik untuk menentukan jumlah dokumen relevan yang tidak diambil.
1958: Konferensi Internasional Informasi Ilmiah Washington DC mempertimbangkan sistem IR
sebagai solusi untuk masalah yang diidentifikasi.
1959: Hans Peter Luhn menerbitkan pengkodean dokumen secara otomatis untuk pengambilan
informasi.
1960-an: Gerard Salton mulai bekerja pada IR di Harvard, kemudian pindah ke Cornell.
1960: Melvin Earl (Bill) Maron dan John Lary Kuhns menerbitkan Relevansi, pengindeksan
probabilistik, dan IR dalam Journal pada ACM
1962: Cyril W. Cleverdon menerbitkan temuan awal dari studi Cranfield, mengembangkan suatu
model untuk evaluasi sistem IR. Lihat: Cyril W. Cleverdon, Laporan Pengujian dan Analisis
sebuah Investigasi ke Efisiensi Perbandingan Pengindeksan Sistem. Koleksi Cranfield
Penerbangan, Inggris Cranfield,, 1962.
Kent diterbitkan Analisis Informasi dan Retrieval.
1963: Weinberg laporan Ilmu, Pemerintah dan Informasi memberikan artikulasi penuh gagasan
krisis informasi ilmiah. Laporan itu dinamai Dr Alvin Weinberg.
Yusuf Becker dan Robert M. Hayes menerbitkan teks pada pencarian informasi. Becker, Joseph;
Hayes, Mayo Robert. Penyimpanan informasi dan pengambilan: alat, elemen, teori. New York,
Wiley (1963).
1964: Karen Sprck Jones menyelesaikan tesis nya di Cambridge, Klasifikasi sinonim dan
Semantic, dan bekerja pada linguistik komputasi yang dipersiapkan untuk IR.
Biro Standar Nasional mensponsori simposium berjudul Asosiasi Statistik Metode Dokumentasi
Mekanik. Beberapa penemuan sangat signifikan, termasuk referensi pertama G. Salton s
diterbitkan. National Library of Medicine dikembangkan oleh MEDLARS Kedokteran, Sastra,
Analisis dan Retrieval System, database dapat dibaca oleh mesin besar pertama dan sistem batch-
retrieval.
1965: JCR Licklider menerbitkan Perpustakaan Masa Depan.
1966: Don Swanson terlibat dalam penelitian di University of Chicago pada Persyaratan untuk
Katalog Masa Depan.
1960-an: F. Wilfrid Lancaster menyelesaikan studi evaluasi sistem MEDLARS dan menerbitkan
edisi pertama teks tentang pencarian informasi.
1968: Gerard Salton menerbitkan Otomatis Informasi Organisasi dan Retrieval.
John W. Sammon, Jr s RADC melaporkan Tech Matematika Informasi Penyimpanan dan
Retrieval diuraikan model vektor.
1969: Sammon A pemetaan linier untuk analisis struktur data (IEEE Transaksi di Komputer)
merupakan proposal pertama untuk antarmuka visualisasi untuk sistem IR.
awal 1970-an : Pertama online sistem-NLM AIM-Twx, MEDLINE; Lockheeds Dialog; Orbit
SDCs. Theodor Nelson mempromosikan konsep hypertext, diterbitkan Komputer Lib / Dream
Machines.
1971: Nicholas Jardine dan Cornelis J. van Rijsbergen menerbitkan Penggunaan clustering
hierarkis dalam temu balik informasi, yang diartikulasikan dengan hipotesis cluster.
1975: Tiga publikasi sangat berpengaruh oleh Salton sepenuhnya diartikulasikan pemrosesannya
menggunakan vektor kerangka kerja dan model untuk Pengindeksan Otomatis.
1979: CJ van Rijsbergen diterbitkan Information Retrieval (Butterworths). Berat penekanan pada
model probabilistik.
1980: Pertama internasional ACM SIGIR konferensi, bersama dengan kelompok British Society
Komputer IR di Cambridge.
1982: Nicholas J. Belkin, Robert N. Oddy, dan Helen M. Brooks mengusulkan sudut pandang
untuk pengambilan informasi. Ini merupakan konsep penting, meskipun alat analisis otomatis
mereka ternyata akhirnya mengecewakan.
1983: Salton (dan Michael J. McGill) menerbitkan Pengenalan Information Retrieval Modern
(McGraw-Hill), dengan penekanan pada model vektor.
1985: Blair dan Maron mempublikasikan: Sebuah Evaluasi Efektivitas Retrieval untuk
Dokumen-Temu-Full Teks Sistem
pertengahan 1980-an: Upaya untuk mengembangkan versi pengguna akhir sistem IR komersial.
1985-1993: Kunci makalah dan sistem eksperimental untuk antarmuka visualisasi.
Bekerja oleh Donald B. Crouch, Robert R. Korfhage, Matius Chalmers, Anselmus Spoerri dan
lain-lain.
Pada tahun 1989 ditemukannya World Wide Web (WWW) oleh Tim Berners-Lee, awal
kebangkitan information retrieval, sejak itu internet menawarkan berbagai pasilitas seperti email,
ftp, dan berbagi berita (news).
akhir 1990-an: Web search engine mengeluarkan banyak fitur baru yang sebelumnya hanya
ditemukan di sistem IR eksperimental. Search engine menjadi Instansiasi yang paling umum dan
menjadi model IR terbaik.
Dilihat dari sejarah dan perkembangannya maka, IR dimasa depan akan lebih memiliki peran
yang sangat penting untuk memenuhi kebutuhan masyarakat dalam kehidupan sehari-hari.

Berikut adalah perkembangan IR mendatang agar dapat menyesuaikan kebutuhan masyarakat


tentang perlunya informasi :
a). Information Overload:
- Bagaimana mengolah informasi yang sangat banyak
- Tidak semua informasi benar dan sesuai kebutuhan
- Fokus terhadap pengembangan filter dan aggregator.
- Search Box tersebar
b). Web masa akan datang
- Semua model web akan mengikuti Google dan Facebook
c). Revolusi Media
- Format publikasi media akan melalu internet
- Penerbit dan distributor akan menjadi raja informasi
- Seluler /moble akan menjadi pesaing berat media Pers
- Media pers akan melintasi batas negara dan budaya
- Ponsel dan GPS akan menciptakan technologi baru (revolusi technologi)
- Jaringan Internet, komunikasi dan mobile akan menjadi alat utama bisnis.
- Siapa pun yang mengeguasai technologi akan menguasai dunia.

Anda mungkin juga menyukai