Anda di halaman 1dari 9

LAPORAN PROYEK UAS SISTEM TEMU KEMBALI INFORMASI

DI SUSUN OLEH : 1. 2. 3. 4. 5. Ahmad Zaky F Alfredo Christian D S Moh Nasrul Aziz Nugraheni Vitadyana Rosita Rismawatie (080810026) (080810221) (080810270) (080810368) (080810700)

UNIVERSITAS AIRLANGGA SURABAYA 2011

Model ruang vector tidak membutuhkan komputasi yang berlebihan sehingga waktu untuk mengeksekusi kata akan semakin cepat dan lebih efektif. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar. cerita. berita. 2. kelompok kami menggunakan model ruang vektor pada proyek kali ini. Tujuan Tujuan yang ingin dicapai dari proyek ini adalah : 1. Informasi dapat berupa dokumen. laporan penelitian. membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses terhadap informasi. Kemudahan ini menyebabkan informasi menjadi semakin banyak dan beragam. 2. Oleh karena itu. surat. banyak pihak menyadari bahwa mas alah utama telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara selektif. Salah satu model sistem temu kembali informasi yang paling sederhana namun paling produktif adalah model ruang vektor.1. . Menghasilkan dokumen yang relevan dan terurut berdasarkan tingkat kerelevanannya dengan query yang dimasukkan oleh pengguna. Pengguna dapat mencari halamanhalaman web yang dibutuhkannya melalui search engine. dan lain lain. Memahami konsep pembobotan dokumen TF -IDF dan membangun perangkat lunak untuk mengimplementasikannya pada sistem temu kembali informasi. Tidak dapat dipungkiri lagi informasi telah menjadi komoditi yang paling penting dalam dunia modern masa kini. Seiring dengan perkembangan informasi. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search engine atau mesin pencarian yang terdapat pada jaringan internet. Model ini dapat menampilkan hasil temu balik secara terurut (ranking).

Sistem temu kembali informasi berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Hanya untuk pencarian dokumen pada PC/Laptop. . Dasar Teori 4. Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi merupakan sumber informasi. 4. yaitu : menilai tingkat relevansi dokumen-dokumen dengan query pengguna dan menampilkan dokumen yang dinilai memuaskan . 2. antara lain sebagia berikut : 1. dari suatu kumpulan informasi secara otomatis (Mandala. juga tidak memiliki struktur.1 Sistem Temu Kembali Informasi Sistem temu kembali informasi (information retrieval system) digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna. Batasan Masalah Ditetapkan beberapa batasan masalah.3. 3. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci. Demikian pula ekspresi kebutuhan pengguna yang disebut query. yaitu: y Kumpulan dokumen y Pengindeksan y Kebutuhan informasi pemakai y Strategi pencarian y Kumpulan dokumen yang ditemukan y Penilaian relevansi Sistem temu kembali informasi memiliki dua fungsi utama. 2004). Dokumen yang digunakan merupakan dokumen berita berbahasa Indonesia. Sementara itu Tague-Sutcliffe (1996) melihat Sistem Temu Kembali Informasi sebagai suatu proses yang terdiri dari 6 (enam) komponen utama. Model yang digunakan dalam sistem temu kembali informasi ini adalah model runag vektor.

Text Operations (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata). Query formulation (formulasi terhadap query) yaitu memberi bobot pada indeks katakata query. membangun basis data indeks dari koleksi dokumen. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query pengguna. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan. 3. Indexing (pengindeksan). 2002) Gambar diatas memperlihatkan bahwa terdapat dua buah alir operasi pada sistem temu kembali informasi. Ranking (perangkingan). Sedangkan alur kedua tergantung dari keberadaan basis data indeks yang dihasilkan pada alur pertama (Mandala. 2002). mencari dokumen-dokumen yang relevan terhadap query dan mengurutkan dokumen tersebut berdasarkan kesesuaiannya dengan query. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi basis data indeks tidak tergantung pada alur kedua.Bagian-bagian Sistem Temu Kembali Informasi (Mandala. 2. 4. . Bagian-bagian dari sistem temu kembali informasi menurut gambar diatas meliputi : 1.

Adapun tahapan dari proses pengindeksan adalah sebagai berikut : y Parsing dokumen yaitu proses pengambilan term-term dari dokumen dan query dengan cara memotong string input berdasarkan tiap kata yang menyusunnya (Lusiana et al. Elemen teks (string input) dipisahkan dengan teknik parsing menggunakan fungsi split dimana pemisahan string dilakukan berdasarkan white space (spasi dan tab) untuk kemudian diletakkan pada array .2 Model Ruang Vektor Model sistem temu kembali informasi menentukan detail sistem temu kembali informasi yaitu meliputi representasi dokumen maupun query. yaitu proses indexing dan proses perankingan dokumen. mendukung penentuan peringkat dokumen 3. fungsi pencarian (retrieval function) dan notasi kesesuaian (relevance notation) dokumen terhadap query (Mandala. model ruang vektor berdasarkan pada term 2. model ruang vector memiliki prinsip dasar: a) dokumen direpresentasikan dengan menggunakan vektor ter b) ruang dimensi ditentukan oleh term.4. model ruang vektor memerlukan a) bobot term (term weight) untuk vektor dokumen b) bobot term untuk query 5. kinerja model sistem temu kembali informasi ini a) efisien b) mudah dalam representasi c) dapat diimplementasikan pada document-matching Prosedur model ruang vektor dapat dikelompokkan menjadi tiga tahap.1 Pengindeksan Sistem temu kembali informasi terbagi dalam 2 proses. 2008).term c) query direpresentasikan dengan menggunakan vektor term 4. yaitu : 4.2. 2002). Beberapa karakteristik dari model ruang vektor dalam sistem temu kembali informasi adalah : 1.

contoh : yang.2. dimana : Wij = bobot istilah kata i pada dokumen j. maka dilakukan proses pemeringkatan atau perankingan dokumen berdasarkan besarnya tingkat kerelevanan (kesesuaian) dokumen terhadap query.y Stoplist yaitu daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau query. DFi = jumlah dokumen yang mengandung istilah kata i. y Menghitung term frekuensi (TF) dan dokumen frekuensi (IDF). n = jumlah dokumen. . contohnya kata connect adalah stem dari connected. Pembobotan tersebut berdasarkan pada rumus Pembobotan TF-IDF sebagai berikut (Maning. Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). 4. 1997). dan lain lain. kata hubung. yang mempunyai fungsi dalam kalimat penyusun dokumen tetapi tidak memiliki arti. kata bantu. 4. y Stemming yaitu proses untuk menggabungkan atau memecah kan setiap varian-varian suatu kata menjadi kata dasar (Peter Willet. dimana semakin besar nilai bobot dokumen terhadap query maka semakin besar tingkat similaritas dokumen tersebut terhadap query yang dicari. connecting. TFij = frekuensi istilah kata i dalam dokumen j.3 Perankingan Dokumen Setelah bobot masing-masing dokumen diketahui. dkk. dan connections. 2008) : Wij = TFij * IDFj dimana IDFi = log ( n/DFi). kemudian dimasukkan ke database indeks. Stoplist umumnya berupa kata tugas. connection. juga.2 Pembobotan TF-IDF Kata dalam dokumen diberi bobot.2. seperti. antara.

Oleh karena itu siklus hidup aplikasi database berhubungan dengan siklus hidup sistem informasi.1 Perancangan Database Data base adalah suatu koleksi data computer yang terintegrasi. kata hubung dan kata bantu (terdapat pada tabel tb_stoplist) yang terdapat pada tabel dokumen kemudian menghasilkan kata dasar (terdapat pada tabel tb_katadasar) dan stopward merupakan kumpulan kata yang tidak terpakai dalam dokumen. Tujuan utama dari konsep database adalah meminimumkan pengulangan data dan mencapai independensi. diorganisasikan dan disimpan dengan cara yang memudahkan pengambilan kembali. Perancangan Sistem 5. karena setiap isi dokumen berbeda. Kemudian tabel tb_stoplist memiliki id_stoplist sebagai primary key dan juga tabel tb_katadasar memiliki id_ktdasar sebagai primary key untuk membedakan setiap kata dasar dan setiap kata dasar memiliki tipe_kata dasar.5. . Setiap table memiliki hubungan dengan table lainnya. Mengenai perancangan databse selengkapnya akan dijelaskan pada gambar ER-Diagram dibawah ini : Gambar ER-Diagram diatas menjelaskan bahwa setiap dokumen yang berisi kalimat akan diproses oleh sistem dengan menghilangkan kata tugas. Tabel dokumen memiliki id_dok sebagai primary key. Sebuah sistem database merupakan komponen dasar sistem informasi organisasi yang lebih besar.

y Tabel tb_stoplist Tabel ini berupa daftar kata-kata yang tidak digunakan (dibuang) karena tidak signifikan dalam membedakan dokumen atau query. seperti : aba -aba. abad. Setiap data dikelompokkan dalam beberapa tabel sesuai dengan jenisnya agar memudahkan pencarian dan penyelesaian masalah yang ada. y Tabel tb_katadasar Tabel ini berisi berbagai kata dasar dalam bahasa Indonesia.2 Struktur Tabel di DBMS Gambar diatas merupakan struktur tabel pada database.5. Tabel ini berfungsi untuk menyimpan berbagai macam dokumen yang akan diproses menggunakan aplikasi yang kami bangun. y Tabel Stopword Tabel ini berisi kumpulan kata yang tidak terpakai. Dalam proses ini digunakan sebuah daftar kata buang (stoplist). dan lain lain. Stoplist iini terdiri dari kata . abadi. Kumpulan kata hasil sortiran dari dokumen yang telah diproses menggunakan aplikasi. Penjelasannya adalah sebagai berikut : y Tabel Dokumen Tabel ini berisi berbagai macam dokumen baik berupa kalimat maupun paragraph.

yang mempunyai fungsi dalam kalimat penyusun dokumen tetapi tidak memiliki arti.tugas. kata bantu. kata hubung. Kesimpulan . 6.