Muhammad Nasar
Outline
Information system (overview) Information retreival
Tujuan /fokus
Pencarian informasi yang relevan
(akan dikenalkan)
IRS vs DBMS vs AI
Perbedaan utama terletak pada objek data masing-masing sistem informasi Persamaan : dokumen pada umumnya tekstual
Pertanyaan ?
Lainnya:
dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan. Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.
[2] Indexing
Berfungsi menghasilkan database index Merupakan proses persiapan sehingga dokumen siap untuk diretrive.
Stopword Removal
Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya.
Stemming
Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.
Term Weighting
Pemberian bobot setiap term di dalam dokumen.
Algoritma stemming
Contoh stemming bahasa Indonesia
Overstemming
Pemotongan terlalu banyak, misalnya mencapai menjadi capa
Bagian-bagian IRS
Text Operations (operasi terhadap teks) meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata). Indexing (pengindeksan), membangun basis Query formulation (formulasi data indeks dari koleksi dokumen. terhadap query) yaitu memberi Dilakukan terlebih dahulu sebelum bobot pada indeks kata-kata query. pencarian dokumen dilakukan. (perangkingan), mencari Ranking dokumen-dokumen yang relevan terhadap query dan mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan query.
Kekurangan
Hasil pencarian dokumen berupa himpunan Sulit melihat dokumen yang paling relevan atau agak relevan (partial match). Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean
D1 D2 : : Dm
: : wnm
Tn wn1 wn2
Parameter pengujian
1. Precision (ketepatan)
Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. precision = Jumlah dokumen yang relevan dengan query dan terambil. jumlah seluruh
Parameter pengujian
3. Interpolate Average Precision (IAP)
Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking. Dapat dilakukan dengan interpolasi antara precision dan recall. IAP akan mencatat semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.
Contoh
Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5. Maka perhitungan recall precision adalah
Rangking 1 2 3 4 5 6 7 8 9 10 Relevan Ya Tidak Tidak Ya Ya Tidak Tidak Tidak Tidak Tidak
Precision = 1 / 1 = 1 Recall = 1 / 4 = 0.25 Precision = 2 / 4 = 0.5 Recall = 2 / 4 = 0.5 Precision =3 / 5 = 0.6 Recall = 3 / 4 = 0.75
simpulan
semakin tinggi ketepatan (precison), semakin rendah perolehan (recall).
Contoh teknik QE
Refer to
Pertanyaan?