IR Lagi

1. Metode / Algoritma apa saja yang digunakan untuk melakukan IR? Jawab : a.
Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model. b. Algebratic model, model merepresentasikan dokumen dan querysebagai vektor atau matriks similarity antara vektor dokumen dan vektorquery yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI). c. Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik. 2. Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya ? Jawab : a. Precision (ketepatan) Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. Rumus precision = Jumlah dokumen relevan dengan query jumlah seluruh dokumen yang terambil b. Recall (kelengkapan) Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem). Rumus recall = Jumlah dokumen relevan dengan query dan terambil sistem. jumlah seluruh dokumen relevan dalam koleksi dokumen. Contoh :
Jika ada seseorang mencari dokumen tentang Information Retrieval pada sebuah sistem, dan jika sistem tersebut memiliki 100 buku tentang Information Retrieval , maka kinerja terbaik adalah jika sistem tersebut berhasil menemukan 100 dokumen tentang Information Retrieval . Kalau sistem tersebut memberikan 100 temuan, dan di temuan tersebut ada 50 dokumen tentang Information Retrieval , maka nilai recall-nya adalah 0,5 (atau 50%) dan nilai precision-nya juga 0,5. Kalau sistem tersebut memberikan 1 dokumen saja, dan dokumen tersebut adalah tentang Information Retrieval , maka recall-nya bernilai 0,01 dan precision-nya bernilai 1.
3.Jelaskan Algoritma Web-Crawler yang sederhana, berikan contohnya ? Jawab : Web Craweler atau yang lebih dikenal dengan sebutan Web Spider atau Web robot merupakan suatu aplikasi dimana kita dapat membandingkan beberapa web yang terdapat di internet. Web Crawler bekerja secara otomatis dengan membandingkan beberapa alamat website yang sering dikunjungi dan akan secara otomatis menyimpan semua bagian file yang terdapat didalamnya dalam folder computer kita.
Nama : Anis Sunaita Nim : 09011222 Kelas : B INDEX CONSTRUCTION Didalam mata kuliah Information Retrival ini, pertama yang akan kita pelajari adalah tentang korpus data. Pengertian Korpus data secara luas dan menurut kamus besar adalah data yang dipakai sebagai bahan penelitian. Nah didalam penelitian itulah terdapat koleksi dokumen-dokumen. Koleksi itulah yang dinamakan Korpus Data. Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. Korpus data biasanya disimpan dalam komputer, sehingga software komputer dapat dibuat untuk memfasilitasinya.salah satu cara umum untuk menggunakan korpus data adalah untuk menghitung jumlah total kata pada teks, kemudian menghitung dan mengatur jumlah waktu kemunculan kata tertentu. Proses membangun indeks dokumen dari korpus data yang akan digunakan dalam proses retrieval disebut Index Construction. Didalam dokumen terdapat kata-kata/atau kosakata didalam term atau yang dikenal dengan Vocabulary of term. Istilah token dalam vocabulary of term ini disebut dengan kata/word/term. Ada beberapa proses yang dilakukan dalam pembuatan vocabulary of terms: Tokenization : suatu tahap pemrosesan dimana text input dibagi menjadi unit-unit yang disebut token yang merupakan suatu kata atau suatu angka atau suatu tanda baca. Case Folding : proses penyamaan case dalam sebuah dokumen. Ini dilakukan untuk mempermudah pencarian. Filtering : digunakan untuk menghilangkan karakter-karakter non-huruf yang dianggap tidak valid (karakter angka dan simbol). Stopword : proses penghilangan kata-kata yang tidak berkontribusi banyak pada isi dokumen. Stemming : suatu proses pengembalian suatu kata berimbuhan ke bentuk dasarnya (stem/root). Inverter Index : Kata-kata yang sama dijadikan satu. Dari hasil inverter indexnya inilah yang dinamakan posting list. Nah jika kalian semua ingin mengetahui contoh dari setiap penjelasan diatas, maka kalian bisa melihat dihalaman ini pada halaman 4 BOOLEAN RETRIEVAL MODEL Dalam pembahasan ini kita membicarakan tentang banyaknya dokumen, yang perlu dilakukan dengan baik. Boolean retrival model Melakukan perbaikan karena datanya terlalu besar bila tersimpan dalam komputer, seperti ini kita perlu memenuhi peraturannya diantaranya : kecepatan dalam pemrosesan dokumen yang sangat banyak, fleksibilitas dan perangkingan. Pemecahan dalam masalah seperti bisa dilakukan dengan melalui index dokumen. Caranya dengan melakukan : Incidence Matrix: suatu matrix yang terdiri dari kolom (dokumen) dan baris (token/terms). Dokumen yang ada di kolom adalah semua dokumen yang terdapat pada korpus data kita. Token pada baris adalah semua token unik dalam seluruh dokumen yang ada. Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1. Jika tidak ditemukan, maka nilai kolom (t,d) adalah 0. Inverted index: didalam proses inverted index ini kita menggunakan posting lists. Untuk melakukannnya terlebih dahulu kita melakukan token yang disebut dengan vocabulary. Dan untuk setiap token ada posting lists untuk dokumen dimana token tersebut muncul.
Setelah semua caranya selesai, langkah berikutnya adalah melakukan overlap, ketika terjadi transaksi beruntun, maka system software hanya mengerjakan transaksi, satu transaksi selesai proses ganti transaksi berikutnya, begitu seterusnya. Boolean Retrieval Model (BRM)adalah model Informasi Retrival yang dapat menyelesaikan setiap permintaan query(keywords) dalam bentuk ekspresi boolean. Model ini melihat setiap dokumen sebagai sebuah set dari kata-kata (tokens). Hasil perhitungannya hanya berupa binary (1 atau 0). Dalam hal ini tidak ada dokumen yang mirip. Dari penjelasan diatas, agar kalian mudah memahami dan mudah cepat dimengerti sebaiknya kalian baca dan ikuti langkah-langkah contoh soal dibawah ini, mulai dariINDEX CONSTRUCTION dan BOOLEAN RETRIEVAL MODEL Yuk kita mulai dengan bacaan Basmallah terlebih dahulu 1. Terlebih dahulu kita buat dokumennya sebanyak enam dokumen yang terdapat dua kalimat didalamnya. Tiap dokumen ditandai dengan huruf D.
DOKUMEN D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku D2 : tunjukkanlah pada dunia. Semangatmu yang panas membara D3 : Daku ingin jiwa raga ini. Selaraskan keagungan D4 : Daku ingin jemariku ini. Menuliskan kharismamu D5 : Berkibarlah di luas nuansaku. Tunjukkanlah pada dunia D6 : Daku ingin kepal tangan ini.menunaikan kewajiban
2. Selanjutnya menentukan token dari Dokumen-dokumen diatas
kibar bendera negeri engkau dada tunjuk pada dunia semangat panas bara daku ingin jiwa raga ini
laras agung jemari tulis kharisma luas nuansa kepal tangan tunai wajib
3. Untuk langkah ke 3 yaitu menentukan Query dari D1 sampai D6 Query : Berkibar Bendera 4.selanjutnya yaitu melakukan Incedence index
D1 D2 D3 D4 D5 t t t t t t t t t t t t t t t t t t t t t t t t t 1 kibar 2 bendera 3 negeri 4 engkau 5 dada 6 tunjuk 7 pada 8 dunia 9 semangat 10 panas 11 bara 12 daku 13 ingin 14 jiwa 15 laras 16 agung 17 jemari 18 tulis 19 kharisma 20 luas 21 nuansa 22 kepal 23 tangan 24 tunai 25 wajib 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 D6 JUMLAH 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 1 1 1 2 2 2 1 1 1 3 3 1 1 1 1 1 1 1 1 1 1 1 1
5. Pada langkah ini kita akan melakukan Inverted Index dengan memposting list pada stiap dokumen, mulai dari tokenisasi, case folding, filtering, stopword, stemming hingga inverted index.
JUMLAH t t t t t t t t t t t t t t t t t t t t t t t t t 1 kibar 2 bendera 3 negeri 4 engkau 5 dada 6 tunjuk 7 pada 8 dunia 9 semangat 10 panas 11 bara 12 daku 13 ingin 14 jiwa 15 laras 16 agung 17 jemari 18 tulis 19 kharisma 20 luas 21 nuansa 22 kepal 23 tangan 24 tunai 25 wajib D1 D1 D1 D1 D1 D2 D2 D2 D2 D2 D2 D3 D3 D3 D3 D3 D4 D4 D4 D5 D5 D5 D6 D6 D6 D4 D6 D4 D5 D5 D5 D5 D5 D5 2 2 1 1 1 2 2 2 1 1 1 3 3 1 1 1 1 1 1 1 1 1 1 1 1
6. Langkah keenam ini, kita melakukan overlap yang berarti tumpang tindihnya fungsi yang digunakan, maksudnya antar dokumen 1 sampai dokumen 6.
tf(d1) t t t t t t t t t t t t t t t t t t t t t t t t t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 kibar bendera negeri engkau dada tunjuk pada dunia semangat panas bara daku ingin jiwa laras agung jemari tulis kharisma luas nuansa kepal tangan tunai wajib 2 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
tf(d2) 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
tf(d3) 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0
tf(d4) 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 0 0
tf (d5) 1 1 0 0 0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0
tf(d6) 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 1 1
tf(d1) n 1 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
tf(d2) n 0 0 0 0 0 0.5 0.5 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0
tf(d3) n 0 0 0 0 0 0 0 0 0 0 0 0.5 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0
tf(d4) n 0 0 0 0 0 0 0 0 0 0 0 0.5 0.5 0 0 0 0.5 0.5 0.5 0 0 0 0 0 0
tf(d5) n 0.5 0.5 0 0 0 0.5 0.5 0.5 0 0 0 0 0.5 0 0 0 0 0 0 0.5 0.5 0 0 0 0
tf(d6) n 0 0 0 0 0 0 0 0 0 0 0 0.5 0 0 0 0 0 0 0 0 0 0.5 0.5 0.5 0.5
df(jumla dok ) 2 2 1 1 1 2 2 2 1 1 1 3 3 1 1 1 1 1 1 1 1 1 1 1 1
7. Langkah ini adalah langkah terakhir yaitu Kesimpulan, bahwasanya nilai tertinggi dari keseluruhan Ada di D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku berkibarlah bendera negeriku. Berkibarlah engkau di dadaku Berkibarlah di luas nuansaku. Tunjukkanlah pada dunia tunjukkanlah pada dunia. Semangatmu yang panas membara Daku ingin jiwa raga ini. Selaraskan keagungan Daku ingin jemariku ini. Menuliskan kharismamu daku ingin kepal tangan ini.menunaikan kewajiban
D1 D5 D2 D3 D4 D6
Dokumen 1 inilah data yang paling Relevan
D1 : berkibarlah bendera negeriku. Berkibarlah engkau di dadaku Dengan Jumlah Nilai : 0.71568

IR Lagi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

IR Lagi

Diunggah oleh

Hak Cipta:

Format Tersedia

1. Metode / Algoritma apa saja yang digunakan untuk melakukan IR? Jawab : a.

tf(d1) n 1 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

tf(d2) n 0 0 0 0 0 0.5 0.5 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0 0 0 0 0 0

tf(d3) n 0 0 0 0 0 0 0 0 0 0 0 0.5 0.5 0.5 0.5 0.5 0 0 0 0 0 0 0 0 0

tf(d4) n 0 0 0 0 0 0 0 0 0 0 0 0.5 0.5 0 0 0 0.5 0.5 0.5 0 0 0 0 0 0

tf(d5) n 0.5 0.5 0 0 0 0.5 0.5 0.5 0 0 0 0 0.5 0 0 0 0 0 0 0.5 0.5 0 0 0 0

tf(d6) n 0 0 0 0 0 0 0 0 0 0 0 0.5 0 0 0 0 0 0 0 0 0 0.5 0.5 0.5 0.5

Dokumen 1 inilah data yang paling Relevan

Anda mungkin juga menyukai