Anda di halaman 1dari 18

TUGAS 1 SISTEM TEMU BALIK INFORMASI

Informasi System Temu Balik


Informasi

Disusun Oleh:

PROGRAM STUDI TEKNIK INFORMATIKA


UNIVERSITAS MARITIM RAJA ALI HAJI
2010

1
Information Retrieval merupakan bagian dari computer science yang
berhubungan dengan pengambilan informasi dari dokumen-dokumen yang
didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.
Berdasarkan referensi dijelaskan bahwa Information Retrieval merupakan
suatu pencarian informasi (biasanya berupa dokumen) yang didasarkan pada
suatu query (inputan user) yang diharapkan dapat memenuhi keinginan user
dari kumpulan dokumen yang ada. Sedangkan, definisi query dalam
Information Retrieval menurut referensi merupakan sebuah formula yang
digunakan untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk
yang paling sederhana, sebuah query merupakan suatu keywords (kata kunci)
dan dokumen yang mengandung keywords merupakan dokumen yang dicari
dalam IRS.

Salah satu aplikasi umum dari sistem temu kembali informasi adalah s e a r c h
engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna
dapat mencari halaman-halamanweb yang dibutuhkannya melaluisearch
engine. Contoh lain dari sistem temu kembali informasi adalah sistem
informasi perpustakaan.

Sistem temu kembali informasi terutama berhubungan dengan pencarian


informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi
kebutuhan pengguna yang disebutquery, juga tidak memiliki struktur. Hal ini
yang membedakan sistem temu kembali informasi dengan sistem basis data.
Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu
dokumen sangat tergantung pada pembuat dokumen tersebut.

Sebagai suatu sistem, sistem temu kembali informasi memiliki beberapa


bagian yang membangun sistem secara keseluruhan. Gambaran bagian-bagian
yang terdapat pada suatu sistem temu kembali informasi digambarkan pada
Gambar dibawah ini yang menampilkan bahwa terdapat dua buah alur operasi
pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi
dokumen dan alur kedua dimulai dariq u e r y pengguna. Alur pertama yaitu
pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak
tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan
basis data indeks yang dihasilkan pada alur pertama.

2
1.Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata
dalamquery maupun dokumen (term selection) dalam pentransformasian
dokumen atauq u e r y menjadi terms index (indeks dari kata-kata).

2.Query formulation (formulasi terhadapquery) yaitu memberi bobot pada


indeks kata-kataquery.

3.Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap


query dan mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan
query.

4.Indexing (pengindeksan), membangun data indeks dari koleksi dokumen.


Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.

Sistem temu kembali informasi menerimaquery dari pengguna, kemudian


melakukan perangkingan terhadap dokumen pada koleksi berdasarkan

3
kesesuaiannya denganq u e r y. Hasil perangkingan yang diberikan kepada
pengguna merupakan dokumen yang menurut sistem relevan denganquery.
Namun relevansi dokumen terhadap suatu

query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak


factor seperti topik, pewaktuan, sumber informasi mapun tujuan pengguna.
Model sistem temu kembali informasi menentukan detail sistem temu kembali
informasi yaitu meliputi representasi dokumen maupunq u e r y, fungsi
pencarian (retrieval function) dan notasi kesesuaian (relevance notation)
dokumen terhadap query.

Salah satu model sistem temu kembali informasi yang paling awal digunakan
adalah modelboolean. Modelboolean merepresentasikan dokumen sebagai
suatu himpunan kata-kunci (set of keywords). Sedangkanquery
direpresentasikan sebagai ekspresib o o l e a n.Query dalam ekspresiboolean
merupakan kumpulan kata kunci yang

Cabang/Tipe Sistem Informasi

Sistem Temu Balik Informasi (Information Retrieval System - IRS) merupakan


salah satu cabang/tipe sistem informasi.

Beberapa cabang atau tipe Sistem Informasi, antara lain:

Sistem Temu Balik Informasi (Information Retrieval System - IRS),

Sistem Manajemen Basis Data (Data Base Management System – DBMS),

Sistem Informasi Manajemen (Management Information System – MIS),

Sistem Pendukung Keputusan (Decision Support System - DSS), dan

Sistem Kecerdasan Buatan (Artificial Intelligent System - AI).

Sistem Manajemen Basis Data

4
Sistem Manajemen Basis Data merupakan sistem yang didesain untuk
memanipulasi dan mengurus basis data.

Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsur-unsur
data yang spesifik dan tersimpan dalam tabel-tabel.

Setiap satuan data disebut record (cantuman) terdiri dari ruas-ruas (fields) yang
berisi nilai yang menunjukkan karakteristik yang spesifik atau atribut yang
mengidentifikasikan satuan data yang dimaksud.

Proses yang berkaitan dengan manajemen basis data meliputi:

penyimpanan,

temu balik,

updating, atau

deletion,

proteksi dari kerusakan, dan

kadang-kadang mencakup transmisi data.

Output dapat mengandung record individual, sebagian record, tabel, atau


bentuk susunan data yang lain dari basis data. Informasi yang ditemukan berisi
cantuman-cantuman yang pasti sesuai dengan permintaan.

C. Sistem Informasi Manajemen

Sistem Informasi Manajemen adalah sistem yang didesain untuk kebutuhan


manajemen untuk mendukung fungsi-fungsi dan aktivitas manajemen pada
suatu organisasi.

Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan dengan
kebutuhan manajemen.

5
D. Sistem Pendukung Keputusan

Sistem Pendukung Keputusan menggambarkan operasi-operasi spesifik dalam


satuan-satuan informasi yang homogen.

E. Sistem Kecerdasan Buatan

Tabel 1 memberikan perbandingan antara Sistem Temu Balik Informasi,


Sistem Manajemen Basis Data dan Artificial Intelligent seperti yang
dikemukakan oleh Frakes dan Baeza-Yates (1992).

Tabel 1.

Perbandingan antara Sistem Temu Balik Informasi,

Sistem Manajemen Basis Data dan Sistem Kecerdasan Buatan

Perbedaan pertama di antara ketiganya terletak pada data objek masing-masing


sistem informasi.

Data objek Sistem Temu Balik Informasi (IRS) adalah dokumen yang pada
umumnya tekstual dan tidak terstruktur.

Data objek Sistem Manajemen Basis Data (DBMS) adalah tabel yang tentu
saja terstruktur.

Data objek Sistem Kecerdasan Buatan (AI) adalah pernyataan logika yang
merupakan struktur yang dibangun berdasarkan jaringan semantik.

6
Perbedaan lain terletak pada fungsi operasinya.

Temu balik pada Sistem Temu Balik Informasi bersifat probabilistik, sedang
temu balik pada Sistem Manajemen Basis Data bersifat deterministik.

Dalam pencarian informasi menggunakan Sistem Temu Balik Informasi


dengan pertanyaan (query) tertentu dapat ditemukan sejumlah dokumen.

Akan tetapi tidak dapat dipastikan bahwa dokumen yang ditemukan relevan
dengan informasi yang diinginkan oleh pengguna. Ada kemungkinan dokumen
yang ditemukan tidak relevan dan/atau dokumen yang relevan justru tidak
ditemukan.

Sementara itu dalam pencarian informasi menggunakan Sistem Manajemen


Basis Data, bila pertanyaan (query) sesuai dengan nilai atribut yang ada dalam
basis data maka akan ditemukan record yang relevan, dan bila pertanyaan
(query) tidak sesuai dengan nilai atribut yang ada dalam basis data maka tidak
akan ditemukan record informasi apapun.

Ukuran basis data pada Sistem Temu Balik Informasi dan Sistem manajemen
basis data dapat bervariasi dari basis data yang relatif kecil sampai dengan
basis data yang sangat besar.

Basis data dapat berisi jutaan cantuman dan memori penyimpanan dapat
berukuran sampai dengan beberapa gigabyte.

Oleh karena itu pemilihan struktur data dan algoritma merupakan


permasalahan yang kritis dalam desain sistem yang memungkinkan temu
kembali dengan basis data berukuran besar secara efektif dan efisien.

Tujuan dan Fungsi Sistem Temu Balik Informasi

Sistem Temu Balik Informasi didesain untuk menemukan dokumen atau


informasi yang diperlukan oleh masyarakat pengguna.

7
Sistem Temu Balik Informasi bertujuan untuk menjembatani kebutuhan
informasi pengguna dengan sumber informasi yang tersedia dalam situasi
seperti dikemukakan oleh Belkin (1980) sebagai berikut:

Penulis mempresentasikan sekumpulan ide dalam sebuah dokumen


menggunakan sekumpulan konsep.

Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh


penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan
menemukannya dengan baik.

Sistem temu balik informasi bertujuan untuk mempertemukan ide yang


dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi
pengguna yang dinyatakan dalam bentuk pertanyaan (query).

Berkaitan dengan sumber informasi di satu sisi dan kebutuhan informasi


pengguna di sisi yang lain, Sistem Temu Balik Informasi berperan untuk:

Menganalisis isi sumber informasi dan pertanyaan pengguna.

Mempertemukan pertanyaan pengguna dengan sumber informasi untuk


mendapatkan dokumen yang relevan.

Adapun fungsi utama Sistem Temu Balik Informasi seperti dikemukakan oleh
Lancaster (1979) dan Kent (1971) adalah sebagai berikut:

1.Mengidentifikasi sumber informasi yang relevan dengan minat masyarakat


2.pengguna yang ditargetkan.

3.Menganalisis isi sumber informasi (dokumen).

4.Merepresentasikan isi sumber informasi dengan cara tertentu yang


5.memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna.

8
6.Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu yang
7.memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam
basis data.

8.Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam


basis data.

9.Menemu-kembalikan informasi yang relevan.

10.Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang


diberikan oleh pengguna.

Komponen Sistem Temu Balik Informasi

Menurut Lancaster (1979) Sistem Temu Balik Informasi terdiri dari 6 (enam)
subsistem, yaitu:

Subsistem dokumen

Subsistem pengindeksan

Subsistem kosa kata

Subsistem pencarian

Subsistem antarmuka pengguna-sistem

Subsistem penyesuaian.

Dokumen sebagai objek data dalam Sistem Temu Balik Informasi merupakan
sumber informasi.

Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Kata
kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan
secara khusus oleh spesialis subjek dalam proses pengindeksan yang pada
dasarnya terdiri dari proses analisis dan representasi dokumen.

9
Pengindeksan dilakukan dengan menggunakan sistem pengindeksan tertentu,
yaitu himpunan kosakata yang dapat dijadikan sebagai bahasa indeks sehingga
diperoleh informasi yang terorganisasi.

Sementara itu, pencarian diawali dengan adanya kebutuhan informasi


pengguna.

Dalam hal ini Sistem Temu Balik Informasi berfungsi untuk menganalisis
pertanyaan (query) pengguna yang merupakan representasi dari kebutuhan
informasi untuk mendapatkan pernyataan-pernyataan pencarian yang tepat.

Selanjutnya pernyataan-pernyataan pencarian tersebut dipertemukan dengan


informasi yang telah terorganisasi dengan suatu fungsi penyesuaian (matching
function) tertentu sehingga ditemukan dokumen atau sekumpulan dokumen.

Sementara itu Tague-Sutcliffe (1996) melihat Sistem Temu Balik Informasi


sebagai suatu proses yang terdiri dari 6 (enam) komponen utama yaitu:

10
Kumpulan dokumen

Pengindeksan

Kebutuhan informasi pemakai

Strategi pencarian

Kumpulan dokumen yang ditemukan

Penilaian relevansi

Bila diperhatikan dengan seksama, perbedaan komponen Sistem Temu Balik


Informasi menurut Lancaster (1979) dan menurut Tague-Sutcliffe (1996)
terletak pada penilaian relevansi, yaitu suatu tahap dalam temu balik untuk
menentukan dokumen yang relevan dengan kebutuhan informasi pemakai.

Secara garis besar komponen-komponen Sistem Temu Balik menurut Tague-


Sutcliffe (1996) dapat diilustrasikan seperti pada Gambar berikut:

11
Dalam proses pencarian informasi terjadi interaksi antara pengguna dengan
sistem (mesin) baik secara langsung maupun tidak langsung.

Secara umum interaksi antara pengguna dengan sistem dalam proses pencarian
informasi dapat dinyatakan seperti pada Gambar 3 dibawah ini:

12
Teknik pengembangan formula query (improving query formulation) dalam
Information Retrieval terdiri dari 2 cara, yaitu: query expansion methods dan
query reweighting method. Dalam kasus Tugas Akhir ini digunakan query
expansion methods dimana query awal inputan user diperluas dengan terms
baru atau dengan kata lain user diberi masukan berupa additional terms. Model
yang terdapat dalam Information Retrieval terbagi dalam 3 model besar, yaitu:

1. Set-theoretic models, model merepresentasikan dokumen sebagai himpunan


kata atau frase. Contoh model ini ialah standard Boolean model dan extended
Boolean model.

2. Algebratic model, model merepresentasikan dokumen dan query sebagai


vektor atau matriks similarity antara vektor dokumen dan vektor query yang
direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector
space model dan latent semantic indexing (LSI).

3. Probabilistic model, model memperlakukan proses pengembalian dokumen


sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan
teorema bayes dalam model probabilistik.

13
Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses
untuk mendapatkan relevant documents dari collection documents yang ada
melalui pencarianquery yang diinputkan user.

Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian
utama, yaitu Indexing subsystem, dan Searching subsystem (matching system).
Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi
dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses
persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk
diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing
dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan
digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.
Tahap-tahap yang terjadi pada proses indexing ialah:

1. Word Token

Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus


semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah
kumpulan term menjadi lowercase.

2. Stopword Removal

14
Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti:
and, or, not dan sebagainya.

3. Stemming

Proses mengubah suatu kata bentukan menjadi kata dasar.

4. Term Weighting

Proses pembobotan setiap term di dalam dokumen.

Search subsystem (matching) merupakan proses menemukan kembali


informasi (dokumen) yang relevan terhadap query yang diberikan. Tidak

15
semua dokumen yang diambil (retrieved) oleh system merupakan dokumen
yang sesuai dengan keinginan user (relevant). Gambar dibawah ini
menunjukkan hubungan antara dokumen relevan, dokumen yang terambil oleh
system, dan dokumen relevan yang terambil oleh system:

Pengukuran Performansi Information Retrieval System

Nilai performansi dari aplikasi IR menunjukkan keberhasilan dari suatu IRS


dalam mengembalikan informasi yang dibutuhkan oleh user. Untuk mengukur
performansi dari IRS, digunakan koleksi uji. Koleksi uji terdiri dari tiga
bagian, yaitu koleksi dokumen, query, dan relevance judgement. Koleksi
dokumen adalah kumpulan dokumen yang dijadikan bahan pencarian oleh
sistem. Relevance judgement adalah daftar dokumen-dokumen yang relevan
dengan semua query yang telah disediakan. Parameter yang digunakan dalam
performansi sistem, antara lain[2]:

1. Precision (ketepatan)

Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem


dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan
maupun tidak relevan.

precision = Jumlah dokumen yang relevan dengan query dan terambil.

16
jumlah seluruh dokumen yang terambil

2. Recall (kelengkapan)

Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem


dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen
(terambil ataupun tak terambil sistem).

recall = Jumlah dokumen yang relevan dengan query dan terambil sistem.

jumlah seluruh dokumen relevan dalam koleksi dokumen

3. Interpolate Average Precision (IAP)

Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau


rangking dapat dilakukan dengan melakukan interpolasi antara precision dan
recall. IAP akan mencatat semua Semua dokumen yang relevan dan urutan
dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.

Nilai precision untuk semua titik ditentukan oleh perubahan nilai recall yang
terjadi. Nilai precision berubah pada saat nilai recall berubah naik. Precision
disatu titik recall tertentu adalah maksimal precision untuk semua titik recall
yang lebih kecil dari titik tersebut.

Sebagai contoh, suatu IRS mendapatkan 10 dokumen berdasarkan suatu query


dengan urutan sebagai berikut D1, D2, D3, D4, D5, D6, D7, D8, D9, dan D10.
Dokumen yang relevan dalam koleksi dokumen berdasar query tersebut ialah
D2, D4, D7, D13, dan D20, maka nilai precision dari sistem tersebut ialah 3/10
= 0.3, sedangkan nilai recall nya ialah 3/6 = 0.5.

DAFTAR PUSTAKA

17
1. http://modulkuliah.blogspot.com
2. Drs. Ign. Djoko Irianto, M.Eng. 28/02/2010 Sistem Temu Balik
Informasi
3. http://www.scribd.com/doc/8486230/Information-RetrievalVektor

18