Web Information Retrieval (WIR) atau Sistem Temu Kembali Informasi sendiri sejatinya
memiliki beberapa pengertian, berikut beberapa penjelasan tentang Information
Retrieval :
(1)
Sistem temu balik informasi (Information Retrieval/IR) digunakan untuk menemukan
kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu
kumpulan informasi secara otomatis.
(2)
ilmu yang mempelajari prosedur-prosedur dan metode-metode untuk menemukan
kembali informasi yang tersimpan dari berbagai sumber (resources) yang relevan atau
koleksi sumber informasi yang dicari atau dibutuhkan.
(3)
Dalam ODLIS, Dijelaskan bahwa Temu Kembali informasi (IR) adalah Proses, metode,
dan prosedur yang digunakan untuk menyeleksi informasi yang relevan yang tersimpan
dalam database.
(4)
Information Retrieval (IR) adalah seni dan ilmu mencari informasi dalam dokumen,
mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau
mencari dalam database, apakah relasional database itu berdiri sendiri atau database
hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, video atau
data.
(5)
Information Retrevial adalah bidang keilmuan dalam Teknologi informasi yang
menjelaskan tentang “Pencarian dan Pengambilan Kembali Informasi
(6)
Information Retrieval adalah studi tentang sistem pengindeksan, pencarian, dan
mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya.
(7)
Sistem Temu Kembali Informasi menangani proses yang berkaitan dengan representasi
dokumen, penyimpanan, penelusuran serta penemuan informasi yang relevan terhadap
suatu sistem yang dapat menjembatani informasi dengan pengguna yang membutuhkan
informasi.
(8)
Information Retrieval merupakan bagian dari computer science yang berhubungan
dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan
konteks dari dokumen-dokumen itu sendiri.
Sedangkan pengertian WIR menurut beberapa ahli yakni :
Lancaster (1979)
Sistem temu kembali informasi tidak menginformasikan semua isi dari subjek
yang dimiliki koleksi tersebut tetapi hanya memberikan informasi keberadaan
pustaka yang mempunyai hubungan subjek seperti yang dicari oleh pengguna.
Menurut Lancaster Sistem Temu Kembali Informasi terdiri dari 6 subsistem, yaitu
:
o Subsistem Dokumen
o Subsistem Pengindeksan
o Subsistem Kosakata
o Subsistem Pencarian
o Subsistem Antarmuka pengguna-sistem
o Subsistem penyesuaian
Adapun fungsi utama IR menurut Lancaster yaitu sebagai berikut :
o Mengidentifikasi sumber informasi yang relevan dengan minat
masyarakat atau pengguna yang ditargetkan.
o Menganalisis isi sumber informasi.
o Merepresentasikan isi sumber informasi dengan cara tertentu yang
memungkinkan untuk dipertemukan dengan query pengguna.
o Merepresentasikan query pengguna dengan cara tertentu yang
memungkinkan untuk dipertemukan sumber informasi yang terdapat
dalam basis data.
o Mempertemukan pernyataan pencarian dengan data yang tersimpan
dalam basis data.
o Menemukan-menembalikan informasi yang relevan.
o Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang
diberikan oleh pengguna.
Harter (1986)
Sistem temu-kembali informasi (Information Retrieval System/IRS) adalah
perangkat yang menghubungkan antara pemakai potensial dengan koleksi atau
kumpulan informasi.
Houghton (1977)
Sistem temu kembali informasi adalah penelusuran yang merupakan interaksi
antara pemakai dan sistem dan pernyataan kebutuhan pengguna diekspresikan
sebagai suatu istilah tertentu.
Zaenab (2002)
Menjelaskan bahwa sistem temu kembali informasi informasi merupakan suatu
proses pencarian dokumen dengan menggunakan istilah-istilah bahasa pencarian
untuk mendefinisikan dokumen sesuai dengan subjek yang diinginkan.
Hasugian (2003)
Menjelaskan bahwa sistem temu kembali informasi pada dasarnya adalah suatu
proses untuk mengidentifikasi, kemudian memanggil (retrieval) suatu dokumen
dari suatu simpanan (file), sebagai jawaban atas permintaan informasi.
Ingwersen (1992)
Mengatakan bahwa sistem temu kembali informasi adalah sebuah sistem yang
dibangun melalui proses antara objek sistem, sistem setting, dan situasi yang
memungkinkan terjadinya penelusuran dan ditemukannya informasi potensial
yang diinginkan oleh penelusur informasi.
Contoh dari Web Information Retrieval antara lain :
Search Engine
Keyword dimasukkan oleh user untuk pencarian informasi yang diinginkan pada
Search Engine, yang mana informasi yang didapatkan mengandung
relevansi/keterkaitan dengan yang diharapkan. Sebagai contoh ketika hendak
mencari informasi tentang Indonesia di search engine maka nanti akan
ditampilkan nama Negara Indonesia beserta info terkait seperti luas wilayah,
terletak di benua apa, memiliki berapa pulau, ibu kotanya apa dan sebagainya.
Content Base Image Retrieval (CBIR)
Retrieval berdasarkan kategori konten dan warna. Dimana user mendeskripsikan
image /gambar apa yang akan dicari dengan cara memilih kategori misalnya
jenis image, Negara, tahun pembuatan dsb.
Deepdyve.com
Deepdyve.com adalah mesin pencari yang belum popular dan kuat, alat
pencarian penelitian profesional tersedia secara gratis untuk masyarakat umum.
Ini adalah mesin penelitian yang memungkinkan Anda mengakses konten ahli
dari "Deep Web" atau website yang disembunyikan, bagian dari internet yang
tidak diindeks oleh mesin pencari lain (misalnya database, jurnal dll).
Mesin pencari situs penelitian ini mengandalkan bahasa Boolean atau kode
taksonomi, yang merupakan ambang batas dan yang membuat mereka sulit
untuk digunakan (atau bahkan tidak dapat diakses) kepada siapa pun kecuali
orang dalam. Deepdyve adalah sebuah antarmuka yang mudah dan canggih
untuk digunakan sebab sumber-sumber informasi nya yang berharga.
Query nya terdiri dari apa pun dari satu kata untuk 25 000 karakter. Hasil
pencarian disajikan dalam cara yang kompleks dengan banyak pilihan lanjutan
untuk pemurnian, menyortir atau menyimpan pencarian Anda. Meskipun
kompleksitas, hasil pencarian ini yang relatif mudah dinavigasi oleh kita.
Sistem Perpustakaan / Retrieval Perpustakaan
Perpustakaan adalah salah satu institusi pertama yang mengadopsi sistem IR
untuk mendapatkan informasi. Pada umumnya, sistem yang digunakan di
perpustakaan pada awalnya dikembangkan oleh institusi akademis dan
kemudian oleh produsen komersil. Pada generasi pertama, sistem pada dasarnya
terdiri dari suatu otomatisasi dari teknologi sebelumnya (seperti kartu katalog)
dan memungkinkan pencarian berdasar judul dan nama pengarang. Pada
generasi kedua , kemampuan pencarian ditambahkan dengan pencarian
berdasarkan pokok utama, dengan kata kunci, dan tambahan lagi fasilitas kueri
kompleks. Pada generasi ketiga, yang sekarang ini yang sedang menyebar,
fokusnya adalah meningkatkan antarmuka grafis, format elektronik, fitur
hypertext, dan sistem arsitektur terbuka
Web Search
Web Search adalah cara pencarian suatu informasi melalui layanan web searching
engine. Web Search Engine adalah program komputer yang dirancang untuk melakukan
pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis,
ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu
jaringan. Mesin pencari merupakan perangkat penelusur informasi dari dokumen-
dokumen yang tersedia.
Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan
menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut
sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai
macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas
lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas
data yang tersimpan dalam suatu basis data ataupun direktori web. Sebagian besar
mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritme
kepemilikan dan basis data tertutup, di antaranya yang paling populer adalah safari
Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan mesin
pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor
dan OpenFTS.
Contoh Web Search yakni :
Google
Bing
Natural Language Processing
Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus
pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum
digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa yang diterima
oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari
user bisa dipahami dengan baik oleh komputer.
Kajian NLP antara lain mencakup segmentasi tuturan (speech segmentation),
segmentasi teks (text segmentation), penandaan kelas kata (part-of-speech tagging),
serta pengawataksaan makna (word sense disambiguation). Meskipun kajiannya dapat
mencakup teks dan tuturan, pemrosesan tuturan (speech processing) telah berkembang
menjadi suatu bidang kajian terpisah.
Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang
membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming
atau Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar
pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan),
Translation Tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang
memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan oleh
user.
Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian
pada field NLP, diantaranya:
Question Answering Systems (QAS). Kemampuan komputer untuk menjawab
pertanyaan yang diberikan oleh user. Daripada memasukkan keyword ke dalam browser
pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa natural yang
digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.
Summarization. Pembuatan ringkasan dari sekumpulan konten dokumen atau email.
Dengan menggunakan aplikasi ini, user bisa dibantu untuk mengkonversikan dokumen
teks yang besar ke dalam bentuk slide presentasi.
Machine Translation. Produk yang dihasilkan adalah aplikasi yang dapat memahami
bahasa manusia dan menterjemahkannya ke dalam bahasa lain. Termasuk di dalamnya
adalah Google Translate yang apabila dicermati semakin membaik dalam
penterjemahan bahasa. Contoh lain lagi adalah BabelFish yang menterjemahkan bahasa
pada real time.
Speech Recognition. Field ini merupakan cabang ilmu NLP yang cukup sulit. Proses
pembangunan model untuk digunakan telpon/komputer dalam mengenali bahasa yang
diucapkan sudah banyak dikerjakan. Bahasa yang sering digunakan adalah berupa
pertanyaan dan perintah.
Document classification. Sedangkan aplikasi ini adalah merupakan area penelitian NLP
Yang paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan dimana
tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini sangat berguna
pada aplikasi spam filtering, news article classification, dan movie review.
Terminologi NLP
Perkembangan NLP menghasilkan kemungkinan dari interface bahasa natural menjadi
knowledge base dan penterjemahan bahasa natural. Poole dan Mackworth (2010)
menjelaskan bahwa ada 3 (tiga) aspek utama pada teori pemahaman mengenai natural
language:
Syntax: menjelaskan bentuk dari bahasa. Syntax biasa dispesifikasikan oleh sebuah
grammar. Natural language jauh lebih daripada formal language yang digunakan untuk
logika kecerdasan buatan dan program komputer
Semantics: menjelaskan arti dari kalimat dalam satu bahasa. Meskipun teori semantics
secara umum sudah ada, ketika membangun sistem natural language understanding
untuk aplikasi tertentu, akan digunakan representasi yang paling sederhana.
Pragmatics: menjelaskan bagaimana pernyataan yang ada berhubungan dengan dunia.
Untuk memahami bahasa, agen harus mempertimbangan lebih dari hanya sekedar
kalimat. Agen harus melihat lebih ke dalam konteks kalimat, keadaan dunia, tujuan dari
speaker dan listener, konvensi khusus, dan sejenisnya.
http://socs.binus.ac.id/2013/06/22/NATURAL-LANGUAGE-PROCESSING/
https://goo.gl/images/5yNDru
https://id.wikipedia.org/wiki/Pemrosesan_bahasa_alami
http://bentar-priyopradono.blogspot.com/2013/03/social-network-analysis.html
https://en.wikipedia.org/wiki/Social_network_analysis
https://www.dumetschool.com/blog/Cara-Google-dalam-Crawling-Indexing-Serving
http://trikmudahseo.blogspot.com/2018/04/apa-itu-googlebot.html
http://blograkata.blogspot.com/2012/01/pengertian-googlebot.html
https://pintasku.com/tutorial/mengenal-dan-memahami-apa-itu-web-crawler/
https://id.wikipedia.org/wiki/Mesin_pencari_web